typoverflow
diff --git a/‎examples/online/config/mujoco/algo/alac.yaml‎
Lines changed: 24 additions & 0 deletions b/‎examples/online/config/mujoco/algo/alac.yaml‎
Lines changed: 24 additions & 0 deletions
diff --git a/‎examples/online/config/mujoco/algo/qsm.yaml‎
Lines changed: 3 additions & 3 deletions b/‎examples/online/config/mujoco/algo/qsm.yaml‎
Lines changed: 3 additions & 3 deletions
diff --git a/‎examples/online/config/mujoco/config.yaml‎
Lines changed: 0 additions & 1 deletion b/‎examples/online/config/mujoco/config.yaml‎
Lines changed: 0 additions & 1 deletion
diff --git a/‎examples/online/main_mujoco_offpolicy.py‎
Lines changed: 2 additions & 2 deletions b/‎examples/online/main_mujoco_offpolicy.py‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎flowrl/agent/online/__init__.py‎
Lines changed: 3 additions & 1 deletion b/‎flowrl/agent/online/__init__.py‎
Lines changed: 3 additions & 1 deletion
@@ -0,0 +1,24 @@
+# @package _global_
+
+algo:
+  name: alac
+  discount: 0.99
+  num_samples: 10
+  ema: 0.005
+  ld:
+    resnet: false
+    activation: relu
+    ensemble_size: 2
+    time_dim: 64
+    hidden_dims: [512, 512]
+    cond_hidden_dims: [128, 128]
+    steps: 20
+    step_size: 0.05
+    noise_scale: 1.0
+    noise_schedule: "none"
+    clip_sampler: true
+    x_min: -1.0
+    x_max: 1.0
+    epsilon: 0.001
+    lr: 0.0003
+    clip_grad_norm: null
@@ -2,15 +2,15 @@
 
 algo:
   name: qsm
-  critic_hidden_dims: [256, 256]
+  critic_hidden_dims: [512, 512]
   critic_lr: 0.0003
   discount: 0.99
   num_samples: 10
   ema: 0.005
-  temp: 0.2
+  temp: 0.1
   diffusion:
     time_dim: 64
-    mlp_hidden_dims: [256, 256]
+    mlp_hidden_dims: [512, 512]
     lr: 0.0003
     end_lr: null
     lr_decay_steps: null
 
@@ -27,7 +27,6 @@ random_frames: 5_000
 eval_frames: 10_000
 log_frames: 1_000
 lap_reset_frames: 250
-eval_episodes: 10
 log:
   dir: logs
   tag: debug
 
@@ -5,12 +5,11 @@
 import hydra
 import numpy as np
 import omegaconf
-import wandb
 from omegaconf import OmegaConf
 from tqdm import tqdm
 
+import wandb
 from flowrl.agent.online import *
-from flowrl.agent.online.idem import IDEMAgent
 from flowrl.config.online.mujoco import Config
 from flowrl.dataset.buffer.state import ReplayBuffer
 from flowrl.types import *
@@ -25,6 +24,7 @@
     "dpmd": DPMDAgent,
     "qsm": QSMAgent,
     "idem": IDEMAgent,
+    "alac": ALACAgent,
 }
 
 class OffPolicyTrainer():
 
@@ -1,4 +1,5 @@
 from ..base import BaseAgent
+from .alac.alac import ALACAgent
 from .ctrl.ctrl import Ctrl_TD3_Agent
 from .dpmd import DPMDAgent
 from .idem import IDEMAgent
@@ -18,6 +19,7 @@
     "DPMDAgent",
     "PPOAgent",
     "QSMAgent",
-    "IDEMAgent"
+    "IDEMAgent",
+    "ALACAgent",
     "Ctrl_TD3_Agent",
 ]