first apos tuning sim

SvenKlaassen · SvenKlaassen · commit e21b35796143 · 2025-11-26T11:42:23.000+01:00
diff --git a/monte-cover/src/montecover/irm/__init__.py b/monte-cover/src/montecover/irm/__init__.py
@@ -2,6 +2,7 @@
 
 from montecover.irm.apo import APOCoverageSimulation
 from montecover.irm.apos import APOSCoverageSimulation
+from montecover.irm.apos_tune import APOSTuningCoverageSimulation
 from montecover.irm.cvar import CVARCoverageSimulation
 from montecover.irm.iivm_late import IIVMLATECoverageSimulation
 from montecover.irm.irm_ate import IRMATECoverageSimulation
@@ -17,6 +18,7 @@
 __all__ = [
     "APOCoverageSimulation",
     "APOSCoverageSimulation",
+    "APOSTuningCoverageSimulation",
     "CVARCoverageSimulation",
     "IRMATECoverageSimulation",
     "IRMATETuningCoverageSimulation",
diff --git a/monte-cover/src/montecover/irm/apos_tune.py b/monte-cover/src/montecover/irm/apos_tune.py
@@ -0,0 +1,212 @@
+from typing import Any, Dict, Optional
+import optuna
+
+import doubleml as dml
+import numpy as np
+import pandas as pd
+from doubleml.irm.datasets import make_irm_data_discrete_treatments
+
+from montecover.base import BaseSimulation
+from montecover.utils import create_learner_from_config
+
+
+class APOSTuningCoverageSimulation(BaseSimulation):
+    """Simulation class for coverage properties of DoubleMLAPOs for APO estimation with tuning."""
+
+    def __init__(
+        self,
+        config_file: str,
+        suppress_warnings: bool = True,
+        log_level: str = "INFO",
+        log_file: Optional[str] = None,
+    ):
+        super().__init__(
+            config_file=config_file,
+            suppress_warnings=suppress_warnings,
+            log_level=log_level,
+            log_file=log_file,
+        )
+
+        # Calculate oracle values
+        self._calculate_oracle_values()
+
+        # tuning specific settings
+        # parameter space for the outcome regression tuning
+        def ml_g_params(trial):
+            return {
+                'n_estimators': trial.suggest_int('n_estimators', 100, 200, step=50),
+                'learning_rate': trial.suggest_float('learning_rate', 1e-3, 0.1, log=True),
+                'min_child_samples': trial.suggest_int('min_child_samples', 20, 50, step=5),
+                'max_depth': 5,
+                'lambda_l1': trial.suggest_float('lambda_l1', 1e-3, 10.0, log=True),
+                'lambda_l2': trial.suggest_float('lambda_l2', 1e-3, 10.0, log=True),
+            }
+
+        # parameter space for the propensity score tuning
+        def ml_m_params(trial):
+            return {
+                'n_estimators': trial.suggest_int('n_estimators', 100, 200, step=50),
+                'learning_rate': trial.suggest_float('learning_rate', 1e-3, 0.1, log=True),
+                'min_child_samples': trial.suggest_int('min_child_samples', 20, 50, step=5),
+                'max_depth': 5,
+                'lambda_l1': trial.suggest_float('lambda_l1', 1e-3, 10.0, log=True),
+                'lambda_l2': trial.suggest_float('lambda_l2', 1e-3, 10.0, log=True),
+            }
+
+        self._param_space = {
+            'ml_g': ml_g_params,
+            'ml_m': ml_m_params
+        }
+
+        self._optuna_settings = {
+            'n_trials': 200,
+            'show_progress_bar': False,
+            'verbosity': optuna.logging.WARNING,  # Suppress Optuna logs
+        }
+
+    def _process_config_parameters(self):
+        """Process simulation-specific parameters from config"""
+        # Process ML models in parameter grid
+        assert "learners" in self.dml_parameters, "No learners specified in the config file"
+
+        required_learners = ["ml_g", "ml_m"]
+        for learner in self.dml_parameters["learners"]:
+            for ml in required_learners:
+                assert ml in learner, f"No {ml} specified in the config file"
+
+    def _calculate_oracle_values(self):
+        """Calculate oracle values for the simulation."""
+        self.logger.info("Calculating oracle values")
+
+        n_levels = self.dgp_parameters["n_levels"][0]
+        data_apo_oracle = make_irm_data_discrete_treatments(
+            n_obs=int(1e6), n_levels=n_levels, linear=self.dgp_parameters["linear"][0]
+        )
+
+        y0 = data_apo_oracle["oracle_values"]["y0"]
+        ite = data_apo_oracle["oracle_values"]["ite"]
+        d = data_apo_oracle["d"]
+
+        average_ites = np.full(n_levels + 1, np.nan)
+        apos = np.full(n_levels + 1, np.nan)
+        for i in range(n_levels + 1):
+            average_ites[i] = np.mean(ite[d == i]) * (i > 0)
+            apos[i] = np.mean(y0) + average_ites[i]
+
+        ates = np.full(n_levels, np.nan)
+        for i in range(n_levels):
+            ates[i] = apos[i + 1] - apos[0]
+
+        self.logger.info(f"Levels and their counts:\n{np.unique(d, return_counts=True)}")
+        self.logger.info(f"True APOs: {apos}")
+        self.logger.info(f"True ATEs: {ates}")
+
+        self.oracle_values = dict()
+        self.oracle_values["apos"] = apos
+        self.oracle_values["ates"] = ates
+
+    def run_single_rep(self, dml_data: dml.DoubleMLData, dml_params: Dict[str, Any]) -> Dict[str, Any]:
+        """Run a single repetition with the given parameters."""
+        # Extract parameters
+        learner_config = dml_params["learners"]
+        learner_g_name, ml_g = create_learner_from_config(learner_config["ml_g"])
+        learner_m_name, ml_m = create_learner_from_config(learner_config["ml_m"])
+        treatment_levels = dml_params["treatment_levels"]
+        trimming_threshold = dml_params["trimming_threshold"]
+
+        # Model
+        dml_model = dml.DoubleMLAPOS(
+            obj_dml_data=dml_data,
+            ml_g=ml_g,
+            ml_m=ml_m,
+            treatment_levels=treatment_levels,
+            trimming_threshold=trimming_threshold,
+        )
+        # Tuning
+        dml_model_tuned = dml.DoubleMLAPOS(
+            obj_dml_data=dml_data,
+            ml_g=ml_g,
+            ml_m=ml_m,
+            treatment_levels=treatment_levels,
+            trimming_threshold=trimming_threshold,
+        )
+        dml_model_tuned.tune_ml_models(
+            ml_param_space=self._param_space,
+            optuna_settings=self._optuna_settings,
+        )
+
+        result = {
+            "coverage": [],
+            "causal_contrast": [],
+        }
+        for model in [dml_model, dml_model_tuned]:
+            model.fit()
+            model.bootstrap(n_rep_boot=2000)
+            causal_contrast_model = model.causal_contrast(reference_levels=0)
+            causal_contrast_model.bootstrap(n_rep_boot=2000)
+            for level in self.confidence_parameters["level"]:
+                level_result = dict()
+                level_result["coverage"] = self._compute_coverage(
+                    thetas=model.coef,
+                    oracle_thetas=self.oracle_values["apos"],
+                    confint=model.confint(level=level),
+                    joint_confint=model.confint(level=level, joint=True),
+                )
+                level_result["causal_contrast"] = self._compute_coverage(
+                    thetas=causal_contrast_model.thetas,
+                    oracle_thetas=self.oracle_values["ates"],
+                    confint=causal_contrast_model.confint(level=level),
+                    joint_confint=causal_contrast_model.confint(level=level, joint=True),
+                )
+
+                # add parameters to the result
+                for res_metric in level_result.values():
+                    res_metric.update(
+                        {
+                            "Learner g": learner_g_name,
+                            "Learner m": learner_m_name,
+                            "level": level,
+                            "Tuned": model is dml_model_tuned,
+                        }
+                    )
+                for key, res in level_result.items():
+                    result[key].append(res)
+
+        return result
+
+    def summarize_results(self):
+        """Summarize the simulation results."""
+        self.logger.info("Summarizing simulation results")
+
+        # Group by parameter combinations
+        groupby_cols = ["Learner g", "Learner m", "level", "Tuned"]
+        aggregation_dict = {
+            "Coverage": "mean",
+            "CI Length": "mean",
+            "Bias": "mean",
+            "Uniform Coverage": "mean",
+            "Uniform CI Length": "mean",
+            "repetition": "count",
+        }
+
+        # Aggregate results (possibly multiple result dfs)
+        result_summary = dict()
+        for result_name, result_df in self.results.items():
+            result_summary[result_name] = result_df.groupby(groupby_cols).agg(aggregation_dict).reset_index()
+            self.logger.debug(f"Summarized {result_name} results")
+
+        return result_summary
+
+    def _generate_dml_data(self, dgp_params: Dict[str, Any]) -> dml.DoubleMLData:
+        """Generate data for the simulation."""
+        data = make_irm_data_discrete_treatments(
+            n_obs=dgp_params["n_obs"],
+            n_levels=dgp_params["n_levels"],
+            linear=dgp_params["linear"],
+        )
+        df_apo = pd.DataFrame(
+            np.column_stack((data["y"], data["d"], data["x"])),
+            columns=["y", "d"] + ["x" + str(i) for i in range(data["x"].shape[1])],
+        )
+        dml_data = dml.DoubleMLData(df_apo, "y", "d")
+        return dml_data
diff --git a/monte-cover/src/montecover/irm/irm_ate_tune.py b/monte-cover/src/montecover/irm/irm_ate_tune.py
@@ -98,7 +98,7 @@ def run_single_rep(self, dml_data: dml.DoubleMLData, dml_params: Dict[str, Any])
             obj_dml_data=dml_data,
             ml_g=ml_g,
             ml_m=ml_m,
-        ) 
+        )
         dml_model_tuned.tune_ml_models(
             ml_param_space=self._param_space,
             optuna_settings=self._optuna_settings,
diff --git a/results/irm/apos_tune_causal_contrast.csv b/results/irm/apos_tune_causal_contrast.csv
@@ -0,0 +1,5 @@
+Learner g,Learner m,level,Tuned,Coverage,CI Length,Bias,Uniform Coverage,Uniform CI Length,repetition
+LGBM Regr.,LGBM Clas.,0.9,False,0.915,37.253979808129365,8.903634313073434,0.95,44.16923532073818,200
+LGBM Regr.,LGBM Clas.,0.9,True,0.835,4.834836017081165,1.3591722777708926,0.815,5.703081839207788,200
+LGBM Regr.,LGBM Clas.,0.95,False,0.98,44.39085491153563,8.903634313073434,0.985,50.67060073707776,200
+LGBM Regr.,LGBM Clas.,0.95,True,0.915,5.761062449185174,1.3591722777708926,0.895,6.546100271377481,200
diff --git a/results/irm/apos_tune_config.yml b/results/irm/apos_tune_config.yml
@@ -0,0 +1,31 @@
+simulation_parameters:
+  repetitions: 200
+  max_runtime: 19800
+  random_seed: 42
+  n_jobs: -2
+dgp_parameters:
+  n_obs:
+  - 500
+  n_levels:
+  - 2
+  linear:
+  - true
+learner_definitions:
+  lgbmr: &id001
+    name: LGBM Regr.
+  lgbmc: &id002
+    name: LGBM Clas.
+dml_parameters:
+  treatment_levels:
+  - - 0
+    - 1
+    - 2
+  trimming_threshold:
+  - 0.01
+  learners:
+  - ml_g: *id001
+    ml_m: *id002
+confidence_parameters:
+  level:
+  - 0.95
+  - 0.9
diff --git a/results/irm/apos_tune_coverage.csv b/results/irm/apos_tune_coverage.csv
@@ -0,0 +1,5 @@
+Learner g,Learner m,level,Tuned,Coverage,CI Length,Bias,Uniform Coverage,Uniform CI Length,repetition
+LGBM Regr.,LGBM Clas.,0.9,False,0.93,27.82005877126217,6.439524063849977,0.96,35.676118532942496,200
+LGBM Regr.,LGBM Clas.,0.9,True,0.885,6.300962875030208,1.5916287837149021,0.88,7.710244822536492,200
+LGBM Regr.,LGBM Clas.,0.95,False,0.9766666666666667,33.14964465289176,6.439524063849977,0.975,40.33245838311548,200
+LGBM Regr.,LGBM Clas.,0.95,True,0.9466666666666668,7.50806035298818,1.5916287837149021,0.94,8.829514768318946,200
diff --git a/results/irm/apos_tune_metadata.csv b/results/irm/apos_tune_metadata.csv
@@ -0,0 +1,2 @@
+DoubleML Version,Script,Date,Total Runtime (minutes),Python Version,Config File
+0.12.dev0,APOSTuningCoverageSimulation,2025-11-26 11:38,31.90539586544037,3.12.9,scripts/irm/apos_tune_config.yml
diff --git a/scripts/irm/apos_tune.py b/scripts/irm/apos_tune.py
@@ -0,0 +1,13 @@
+from montecover.irm import APOSTuningCoverageSimulation
+
+# Create and run simulation with config file
+sim = APOSTuningCoverageSimulation(
+    config_file="scripts/irm/apos_tune_config.yml",
+    log_level="INFO",
+    log_file="logs/irm/apos_tune_sim.log",
+)
+sim.run_simulation()
+sim.save_results(output_path="results/irm/", file_prefix="apos_tune")
+
+# Save config file for reproducibility
+sim.save_config("results/irm/apos_tune_config.yml")
diff --git a/scripts/irm/apos_tune_config.yml b/scripts/irm/apos_tune_config.yml
@@ -0,0 +1,33 @@
+# Simulation parameters for APOS Coverage
+
+simulation_parameters:
+  repetitions: 200
+  max_runtime: 19800 # 5.5 hours in seconds
+  random_seed: 42
+  n_jobs: -2
+
+dgp_parameters:
+  n_obs: [500] # Sample size
+  n_levels: [2]
+  linear: [True]
+
+# Define reusable learner configurations
+learner_definitions:
+  lgbmr: &lgbmr
+    name: "LGBM Regr."
+
+
+  lgbmc: &lgbmc
+    name: "LGBM Clas."
+
+dml_parameters:
+  treatment_levels: [[0, 1, 2]]
+  trimming_threshold: [0.01]
+  learners:
+    - ml_g: *lgbmr
+      ml_m: *lgbmc
+
+
+
+confidence_parameters:
+  level: [0.95, 0.90] # Confidence levels

Original file line number	Diff line number	Diff line change
`@@ -0,0 +1,2 @@`
	`1`	`+DoubleML Version,Script,Date,Total Runtime (minutes),Python Version,Config File`
	`2`	`+0.12.dev0,APOSTuningCoverageSimulation,2025-11-26 11:38,31.90539586544037,3.12.9,scripts/irm/apos_tune_config.yml`