add sim for did_pa_multi_tune

SvenKlaassen · SvenKlaassen · commit c31b082d81f0 · 2025-11-28T08:08:01.000+01:00
diff --git a/monte-cover/src/montecover/did/__init__.py b/monte-cover/src/montecover/did/__init__.py
@@ -2,5 +2,10 @@
 
 from montecover.did.did_cs_multi import DIDCSMultiCoverageSimulation
 from montecover.did.did_pa_multi import DIDMultiCoverageSimulation
+from montecover.did.did_pa_multi_tune import DIDMultiTuningCoverageSimulation
 
-__all__ = ["DIDMultiCoverageSimulation", "DIDCSMultiCoverageSimulation"]
+__all__ = [
+    "DIDMultiCoverageSimulation",
+    "DIDCSMultiCoverageSimulation",
+    "DIDMultiTuningCoverageSimulation"
+]
diff --git a/monte-cover/src/montecover/did/did_pa_multi_tune.py b/monte-cover/src/montecover/did/did_pa_multi_tune.py
@@ -0,0 +1,248 @@
+from typing import Any, Dict, Optional
+
+import doubleml as dml
+import numpy as np
+import optuna
+import pandas as pd
+from doubleml.did.datasets import make_did_CS2021
+
+from montecover.base import BaseSimulation
+from montecover.utils import create_learner_from_config
+
+
+class DIDMultiTuningCoverageSimulation(BaseSimulation):
+    """Simulation study for coverage properties of DoubleMLDIDMulti with hyperparameter tuning."""
+
+    def __init__(
+        self,
+        config_file: str,
+        suppress_warnings: bool = True,
+        log_level: str = "INFO",
+        log_file: Optional[str] = None,
+    ):
+        super().__init__(
+            config_file=config_file,
+            suppress_warnings=suppress_warnings,
+            log_level=log_level,
+            log_file=log_file,
+        )
+
+        # Additional results storage for aggregated results
+        self.results_aggregated = []
+
+        # Calculate oracle values
+        self._calculate_oracle_values()
+
+        # tuning specific settings
+        # parameter space for the outcome regression tuning
+        def ml_g_params(trial):
+            return {
+                "n_estimators": trial.suggest_int("n_estimators", 100, 200, step=50),
+                "learning_rate": trial.suggest_float(
+                    "learning_rate", 1e-3, 0.1, log=True
+                ),
+                "min_child_samples": trial.suggest_int(
+                    "min_child_samples", 20, 50, step=5
+                ),
+                "max_depth": 5,
+                "lambda_l1": trial.suggest_float("lambda_l1", 1e-3, 10.0, log=True),
+                "lambda_l2": trial.suggest_float("lambda_l2", 1e-3, 10.0, log=True),
+            }
+
+        # parameter space for the propensity score tuning
+        def ml_m_params(trial):
+            return {
+                "n_estimators": trial.suggest_int("n_estimators", 100, 200, step=50),
+                "learning_rate": trial.suggest_float(
+                    "learning_rate", 1e-3, 0.1, log=True
+                ),
+                "min_child_samples": trial.suggest_int(
+                    "min_child_samples", 20, 50, step=5
+                ),
+                "max_depth": 5,
+                "lambda_l1": trial.suggest_float("lambda_l1", 1e-3, 10.0, log=True),
+                "lambda_l2": trial.suggest_float("lambda_l2", 1e-3, 10.0, log=True),
+            }
+
+        self._param_space = {"ml_g": ml_g_params, "ml_m": ml_m_params}
+
+        self._optuna_settings = {
+            "n_trials": 200,
+            "show_progress_bar": False,
+            "verbosity": optuna.logging.WARNING,  # Suppress Optuna logs
+        }
+
+    def _process_config_parameters(self):
+        """Process simulation-specific parameters from config"""
+        # Process ML models in parameter grid
+        # Process ML models in parameter grid
+        assert (
+            "learners" in self.dml_parameters
+        ), "No learners specified in the config file"
+
+        required_learners = ["ml_g", "ml_m"]
+        for learner in self.dml_parameters["learners"]:
+            for ml in required_learners:
+                assert ml in learner, f"No {ml} specified in the config file"
+
+    def _calculate_oracle_values(self):
+        """Calculate oracle values for the simulation."""
+        self.logger.info("Calculating oracle values")
+
+        self.oracle_values = dict()
+        # Oracle values
+        df_oracle = make_did_CS2021(
+            n_obs=int(1e6), dgp_type=1
+        )  # does not depend on the DGP type
+        df_oracle["ite"] = df_oracle["y1"] - df_oracle["y0"]
+        self.oracle_values["detailed"] = (
+            df_oracle.groupby(["d", "t"])["ite"].mean().reset_index()
+        )
+
+        # Oracle group aggregation
+        df_oracle_post_treatment = df_oracle[df_oracle["t"] >= df_oracle["d"]]
+        self.oracle_values["group"] = df_oracle_post_treatment.groupby("d")[
+            "ite"
+        ].mean()
+
+        # Oracle time aggregation
+        self.oracle_values["time"] = df_oracle_post_treatment.groupby("t")["ite"].mean()
+
+        # Oracle eventstudy aggregation
+        df_oracle["e"] = pd.to_datetime(df_oracle["t"]).values.astype(
+            "datetime64[M]"
+        ) - pd.to_datetime(df_oracle["d"]).values.astype("datetime64[M]")
+        self.oracle_values["eventstudy"] = df_oracle.groupby("e")["ite"].mean()[1:]
+
+    def run_single_rep(self, dml_data, dml_params) -> Dict[str, Any]:
+        """Run a single repetition with the given parameters."""
+        # Extract parameters
+        learner_config = dml_params["learners"]
+        learner_g_name, ml_g = create_learner_from_config(learner_config["ml_g"])
+        learner_m_name, ml_m = create_learner_from_config(learner_config["ml_m"])
+        score = dml_params["score"]
+        in_sample_normalization = dml_params["in_sample_normalization"]
+
+        # Model
+        dml_model = dml.did.DoubleMLDIDMulti(
+            obj_dml_data=dml_data,
+            ml_g=ml_g,
+            ml_m=None if score == "experimental" else ml_m,
+            gt_combinations="standard",
+            score=score,
+            in_sample_normalization=in_sample_normalization,
+        )
+        # Tuning
+        dml_model_tuned = dml.did.DoubleMLDIDMulti(
+            obj_dml_data=dml_data,
+            ml_g=ml_g,
+            ml_m=None if score == "experimental" else ml_m,
+            gt_combinations="standard",
+            score=score,
+            in_sample_normalization=in_sample_normalization,
+        )
+        dml_model_tuned.tune_ml_models(
+            ml_param_space=self._param_space,
+            optuna_settings=self._optuna_settings,
+        )
+
+        # sort out oracle thetas
+        oracle_thetas = np.full(len(dml_model.gt_combinations), np.nan)
+        for i, (g, _, t) in enumerate(dml_model.gt_combinations):
+            group_index = self.oracle_values["detailed"]["d"] == g
+            time_index = self.oracle_values["detailed"]["t"] == t
+            oracle_thetas[i] = self.oracle_values["detailed"][group_index & time_index][
+                "ite"
+            ].iloc[0]
+
+        result = {
+            "detailed": [],
+            "group": [],
+            "time": [],
+            "eventstudy": [],
+        }
+        for model in [dml_model, dml_model_tuned]:
+            model.fit()
+            model.bootstrap(n_rep_boot=2000)
+            for level in self.confidence_parameters["level"]:
+                level_result = dict()
+                level_result["detailed"] = self._compute_coverage(
+                    thetas=model.coef,
+                    oracle_thetas=oracle_thetas,
+                    confint=model.confint(level=level),
+                    joint_confint=model.confint(level=level, joint=True),
+                )
+
+                for aggregation_method in ["group", "time", "eventstudy"]:
+                    agg_obj = model.aggregate(aggregation=aggregation_method)
+                    agg_obj.aggregated_frameworks.bootstrap(n_rep_boot=2000)
+
+                    level_result[aggregation_method] = self._compute_coverage(
+                        thetas=agg_obj.aggregated_frameworks.thetas,
+                        oracle_thetas=self.oracle_values[aggregation_method].values,
+                        confint=agg_obj.aggregated_frameworks.confint(level=level),
+                        joint_confint=agg_obj.aggregated_frameworks.confint(
+                            level=level, joint=True
+                        ),
+                    )
+
+                # add parameters to the result
+                for res in level_result.values():
+                    res.update(
+                        {
+                            "Learner g": learner_g_name,
+                            "Learner m": learner_m_name,
+                            "Score": score,
+                            "In-sample-norm.": in_sample_normalization,
+                            "level": level,
+                            "Tuned": model is dml_model_tuned,
+                        }
+                    )
+                for key, res in level_result.items():
+                    result[key].append(res)
+
+        return result
+
+    def summarize_results(self):
+        """Summarize the simulation results."""
+        self.logger.info("Summarizing simulation results")
+
+        groupby_cols = [
+            "Learner g",
+            "Learner m",
+            "Score",
+            "In-sample-norm.",
+            "DGP",
+            "level",
+            "Tuned",
+        ]
+        aggregation_dict = {
+            "Coverage": "mean",
+            "CI Length": "mean",
+            "Bias": "mean",
+            "Uniform Coverage": "mean",
+            "Uniform CI Length": "mean",
+            "repetition": "count",
+        }
+
+        result_summary = dict()
+        for result_name, result_df in self.results.items():
+            result_summary[result_name] = (
+                result_df.groupby(groupby_cols).agg(aggregation_dict).reset_index()
+            )
+            self.logger.debug(f"Summarized {result_name} results")
+
+        return result_summary
+
+    def _generate_dml_data(self, dgp_params) -> dml.data.DoubleMLPanelData:
+        """Generate data for the simulation."""
+        data = make_did_CS2021(n_obs=dgp_params["n_obs"], dgp_type=dgp_params["DGP"])
+        dml_data = dml.data.DoubleMLPanelData(
+            data,
+            y_col="y",
+            d_cols="d",
+            id_col="id",
+            t_col="t",
+            x_cols=["Z1", "Z2", "Z3", "Z4"],
+        )
+        return dml_data
diff --git a/results/did/did_pa_multi_tune_config.yml b/results/did/did_pa_multi_tune_config.yml
@@ -0,0 +1,27 @@
+simulation_parameters:
+  repetitions: 2
+  max_runtime: 19800
+  random_seed: 42
+  n_jobs: -2
+dgp_parameters:
+  DGP:
+  - 1
+  n_obs:
+  - 2000
+learner_definitions:
+  lgbmr: &id001
+    name: LGBM Regr.
+  lgbmc: &id002
+    name: LGBM Clas.
+dml_parameters:
+  learners:
+  - ml_g: *id001
+    ml_m: *id002
+  score:
+  - observational
+  in_sample_normalization:
+  - true
+confidence_parameters:
+  level:
+  - 0.95
+  - 0.9
diff --git a/results/did/did_pa_multi_tune_detailed.csv b/results/did/did_pa_multi_tune_detailed.csv
@@ -0,0 +1,5 @@
+Learner g,Learner m,Score,In-sample-norm.,DGP,level,Tuned,Coverage,CI Length,Bias,Uniform Coverage,Uniform CI Length,repetition
+LGBM Regr.,LGBM Clas.,observational,True,1,0.9,False,0.9166666666666667,0.9768034697095042,0.23400349839993873,1.0,1.5475751781406841,2
+LGBM Regr.,LGBM Clas.,observational,True,1,0.9,True,0.875,0.606470751441224,0.1614408775625408,0.5,0.9452913645347121,2
+LGBM Regr.,LGBM Clas.,observational,True,1,0.95,False,1.0,1.163933124038929,0.23400349839993873,1.0,1.6901781219508825,2
+LGBM Regr.,LGBM Clas.,observational,True,1,0.95,True,0.875,0.7226544727294515,0.1614408775625408,0.5,1.033662115539573,2
diff --git a/results/did/did_pa_multi_tune_eventstudy.csv b/results/did/did_pa_multi_tune_eventstudy.csv
@@ -0,0 +1,5 @@
+Learner g,Learner m,Score,In-sample-norm.,DGP,level,Tuned,Coverage,CI Length,Bias,Uniform Coverage,Uniform CI Length,repetition
+LGBM Regr.,LGBM Clas.,observational,True,1,0.9,False,1.0,0.8932471261067743,0.22134836624169563,1.0,1.2842220318304163,2
+LGBM Regr.,LGBM Clas.,observational,True,1,0.9,True,0.8333333333333333,0.5517000133722438,0.171384287662864,0.5,0.7722944107543078,2
+LGBM Regr.,LGBM Clas.,observational,True,1,0.95,False,1.0,1.0643695996876914,0.22134836624169563,1.0,1.4044272167279779,2
+LGBM Regr.,LGBM Clas.,observational,True,1,0.95,True,0.9166666666666667,0.6573911129611814,0.171384287662864,0.5,0.8460573095770816,2
diff --git a/results/did/did_pa_multi_tune_group.csv b/results/did/did_pa_multi_tune_group.csv
@@ -0,0 +1,5 @@
+Learner g,Learner m,Score,In-sample-norm.,DGP,level,Tuned,Coverage,CI Length,Bias,Uniform Coverage,Uniform CI Length,repetition
+LGBM Regr.,LGBM Clas.,observational,True,1,0.9,False,0.8333333333333333,0.9252764729189984,0.27505916642335154,1.0,1.1910838199026417,2
+LGBM Regr.,LGBM Clas.,observational,True,1,0.9,True,0.8333333333333333,0.6185581636672488,0.18895139098415115,0.5,0.7900541517154416,2
+LGBM Regr.,LGBM Clas.,observational,True,1,0.95,False,1.0,1.10253492040176,0.27505916642335154,1.0,1.328849771012091,2
+LGBM Regr.,LGBM Clas.,observational,True,1,0.95,True,0.8333333333333333,0.7370575127575214,0.18895139098415115,0.5,0.8906147435536307,2
diff --git a/results/did/did_pa_multi_tune_metadata.csv b/results/did/did_pa_multi_tune_metadata.csv
@@ -0,0 +1,2 @@
+DoubleML Version,Script,Date,Total Runtime (minutes),Python Version,Config File
+0.12.dev0,DIDMultiTuningCoverageSimulation,2025-11-27 21:14,8.742515516281127,3.12.9,scripts/did/did_pa_multi_tune_config.yml
diff --git a/results/did/did_pa_multi_tune_time.csv b/results/did/did_pa_multi_tune_time.csv
@@ -0,0 +1,5 @@
+Learner g,Learner m,Score,In-sample-norm.,DGP,level,Tuned,Coverage,CI Length,Bias,Uniform Coverage,Uniform CI Length,repetition
+LGBM Regr.,LGBM Clas.,observational,True,1,0.9,False,0.8333333333333333,0.9347149637122762,0.21239079355381435,1.0,1.1850129288693911,2
+LGBM Regr.,LGBM Clas.,observational,True,1,0.9,True,0.8333333333333333,0.5539493870014797,0.16522070900786323,1.0,0.6750979119813514,2
+LGBM Regr.,LGBM Clas.,observational,True,1,0.95,False,1.0,1.1137815758610201,0.21239079355381435,1.0,1.299771642249359,2
+LGBM Regr.,LGBM Clas.,observational,True,1,0.95,True,1.0,0.6600714069574607,0.16522070900786323,1.0,0.7914255322117764,2
diff --git a/scripts/did/did_pa_multi_tune.py b/scripts/did/did_pa_multi_tune.py
@@ -0,0 +1,13 @@
+from montecover.did import DIDMultiTuningCoverageSimulation
+
+# Create and run simulation with config file
+sim = DIDMultiTuningCoverageSimulation(
+    config_file="scripts/did/did_pa_multi_tune_config.yml",
+    log_level="DEBUG",
+    log_file="logs/did/did_pa_multi_tune_sim.log",
+)
+sim.run_simulation()
+sim.save_results(output_path="results/did/", file_prefix="did_pa_multi_tune")
+
+# Save config file for reproducibility
+sim.save_config("results/did/did_pa_multi_tune_config.yml")
diff --git a/scripts/did/did_pa_multi_tune_config.yml b/scripts/did/did_pa_multi_tune_config.yml
@@ -0,0 +1,34 @@
+# Simulation parameters for DID Multi Coverage
+
+simulation_parameters:
+  repetitions: 2
+  max_runtime: 19800 # 5.5 hours in seconds
+  random_seed: 42
+  n_jobs: -2
+
+dgp_parameters:
+  DGP: [1] # Different DGP specifications
+  n_obs: [2000] # Sample size for each simulation (has to be a list)
+
+# Define reusable learner configurations
+learner_definitions:
+  lgbmr: &lgbmr
+    name: "LGBM Regr."
+
+  lgbmc: &lgbmc
+    name: "LGBM Clas."
+
+
+dml_parameters:
+  # ML methods for ml_g and ml_m
+  learners:
+    - ml_g: *lgbmr
+      ml_m: *lgbmc
+
+  score:
+    - observational # Standard DML score
+
+  in_sample_normalization: [true]
+
+confidence_parameters:
+  level: [0.95, 0.90] # Confidence levels

Original file line number	Diff line number	Diff line change
`@@ -0,0 +1,2 @@`
	`1`	`+DoubleML Version,Script,Date,Total Runtime (minutes),Python Version,Config File`
	`2`	`+0.12.dev0,DIDMultiTuningCoverageSimulation,2025-11-27 21:14,8.742515516281127,3.12.9,scripts/did/did_pa_multi_tune_config.yml`