add did pa multi tune

SvenKlaassen · SvenKlaassen · commit 1c734f335263 · 2025-11-28T08:08:01.000+01:00
diff --git a/doc/did/did_pa_multi.qmd b/doc/did/did_pa_multi.qmd
@@ -320,3 +320,192 @@ generate_and_show_styled_table(
     coverage_highlight_cols=["Coverage", "Uniform Coverage"]
 )
 ```
+
+
+## Tuning
+
+The simulations are based on the  the [make_did_CS2021](https://docs.doubleml.org/stable/api/generated/doubleml.did.datasets.make_did_CS2021.html)-DGP with $2000$ observations. Due to time constraints we only consider one learner, use in-sample normalization and the following DGPs:
+
+ - Type 4: Nonlinear outcome model and treatment assignment
+
+The non-uniform results (coverage, ci length and bias) refer to averaged values over all $ATTs$ (point-wise confidende intervals). This is only an example as the untuned version just relies on the default configuration.
+
+::: {.callout-note title="Metadata"  collapse="true"}
+
+```{python}
+#| echo: false
+metadata_file = '../../results/did/did_pa_multi_tune_metadata.csv'
+metadata_df = pd.read_csv(metadata_file)
+print(metadata_df.T.to_string(header=False))
+```
+
+:::
+
+```{python}
+#| echo: false
+
+# set up data
+df = pd.read_csv("../../results/did/did_pa_multi_tune_detailed.csv", index_col=None)
+
+assert df["repetition"].nunique() == 1
+n_rep = df["repetition"].unique()[0]
+
+display_columns = ["Learner g", "Learner m", "Tuned", "Bias", "CI Length", "Coverage", "Uniform CI Length", "Uniform Coverage"]
+```
+
+### Observational Score
+
+```{python}
+#| echo: false
+generate_and_show_styled_table(
+    main_df=df,
+    filters={"level": 0.95, "Score": "observational"},
+    display_cols=display_columns,
+    n_rep=n_rep,
+    level_col="level",
+    coverage_highlight_cols=["Coverage", "Uniform Coverage"]
+)
+```
+
+```{python}
+#| echo: false
+generate_and_show_styled_table(
+    main_df=df,
+    filters={"level": 0.9, "Score": "observational"},
+    display_cols=display_columns,
+    n_rep=n_rep,
+    level_col="level",
+    coverage_highlight_cols=["Coverage", "Uniform Coverage"]
+)
+```
+
+## Tuning Aggregated Effects
+
+These simulations test different types of aggregation, as described in [DiD User Guide](https://docs.doubleml.org/stable/guide/models.html#difference-in-differences-models-did).
+
+As before, we only consider one learner, use in-sample normalization and the following DGPs:
+
+ - Type 4: Nonlinear outcome model and treatment assignment
+
+The non-uniform results (coverage, ci length and bias) refer to averaged values over all $ATTs$ (point-wise confidende intervals). This is only an example as the untuned version just relies on the default configuration.
+
+### Group Effects
+
+```{python}
+#| echo: false
+
+# set up data
+df_group = pd.read_csv("../../results/did/did_pa_multi_tune_group.csv", index_col=None)
+
+assert df_group["repetition"].nunique() == 1
+n_rep_group = df_group["repetition"].unique()[0]
+
+display_columns = ["Learner g", "Learner m", "Tuned", "Bias", "CI Length", "Coverage", "Uniform CI Length", "Uniform Coverage"]
+```
+
+#### Observational Score
+
+```{python}
+#| echo: false
+generate_and_show_styled_table(
+    main_df=df_group,
+    filters={"level": 0.95, "Score": "observational"},
+    display_cols=display_columns,
+    n_rep=n_rep_group,
+    level_col="level",
+    coverage_highlight_cols=["Coverage", "Uniform Coverage"]
+)
+```
+
+```{python}
+#| echo: false
+generate_and_show_styled_table(
+    main_df=df_group,
+    filters={"level": 0.9, "Score": "observational"},
+    display_cols=display_columns,
+    n_rep=n_rep_group,
+    level_col="level",
+    coverage_highlight_cols=["Coverage", "Uniform Coverage"]
+)
+```
+
+
+### Time Effects
+
+```{python}
+#| echo: false
+
+# set up data
+df_time = pd.read_csv("../../results/did/did_pa_multi_tune_time.csv", index_col=None)
+
+assert df_time["repetition"].nunique() == 1
+n_rep_time = df_time["repetition"].unique()[0]
+
+display_columns = ["Learner g", "Learner m", "Tuned", "Bias", "CI Length", "Coverage", "Uniform CI Length", "Uniform Coverage"]
+```
+
+#### Observational Score
+
+```{python}
+#| echo: false
+generate_and_show_styled_table(
+    main_df=df_time,
+    filters={"level": 0.95, "Score": "observational"},
+    display_cols=display_columns,
+    n_rep=n_rep_time,
+    level_col="level",
+    coverage_highlight_cols=["Coverage", "Uniform Coverage"]
+)
+```
+
+```{python}
+#| echo: false
+generate_and_show_styled_table(
+    main_df=df_time,
+    filters={"level": 0.9, "Score": "observational"},
+    display_cols=display_columns,
+    n_rep=n_rep_time,
+    level_col="level",
+    coverage_highlight_cols=["Coverage", "Uniform Coverage"]
+)
+```
+
+### Event Study Aggregation
+
+```{python}
+#| echo: false
+
+# set up data
+df_es = pd.read_csv("../../results/did/did_pa_multi_tune_eventstudy.csv", index_col=None)
+
+assert df_es["repetition"].nunique() == 1
+n_rep_es = df_es["repetition"].unique()[0]
+
+display_columns = ["Learner g", "Learner m", "Tuned", "Bias", "CI Length", "Coverage", "Uniform CI Length", "Uniform Coverage"]
+```
+
+#### Observational Score
+
+```{python}
+#| echo: false
+generate_and_show_styled_table(
+    main_df=df_es,
+    filters={"level": 0.95, "Score": "observational"},
+    display_cols=display_columns,
+    n_rep=n_rep_es,
+    level_col="level",
+    coverage_highlight_cols=["Coverage", "Uniform Coverage"]
+)
+```
+
+```{python}
+#| echo: false
+generate_and_show_styled_table(
+    main_df=df_es,
+    filters={"level": 0.9, "Score": "observational"},
+    display_cols=display_columns,
+    n_rep=n_rep_es,
+    level_col="level",
+    coverage_highlight_cols=["Coverage", "Uniform Coverage"]
+)
+```
diff --git a/monte-cover/src/montecover/did/did_pa_multi_tune.py b/monte-cover/src/montecover/did/did_pa_multi_tune.py
@@ -37,37 +37,33 @@ def __init__(
         # parameter space for the outcome regression tuning
         def ml_g_params(trial):
             return {
-                "n_estimators": trial.suggest_int("n_estimators", 100, 200, step=50),
-                "learning_rate": trial.suggest_float(
-                    "learning_rate", 1e-3, 0.1, log=True
-                ),
+                "n_estimators": trial.suggest_int("n_estimators", 100, 300, step=25),
+                "learning_rate": trial.suggest_float("learning_rate", 0.005, 0.1),
                 "min_child_samples": trial.suggest_int(
-                    "min_child_samples", 20, 50, step=5
+                    "min_child_samples", 5, 50, step=5
                 ),
-                "max_depth": 5,
-                "lambda_l1": trial.suggest_float("lambda_l1", 1e-3, 10.0, log=True),
-                "lambda_l2": trial.suggest_float("lambda_l2", 1e-3, 10.0, log=True),
+                "max_depth": 3,
+                "lambda_l1": trial.suggest_float("lambda_l1", 1e-1, 10.0),
+                "lambda_l2": trial.suggest_float("lambda_l2", 1e-1, 10.0),
             }
 
         # parameter space for the propensity score tuning
         def ml_m_params(trial):
             return {
-                "n_estimators": trial.suggest_int("n_estimators", 100, 200, step=50),
-                "learning_rate": trial.suggest_float(
-                    "learning_rate", 1e-3, 0.1, log=True
-                ),
+                "n_estimators": trial.suggest_int("n_estimators", 100, 300, step=25),
+                "learning_rate": trial.suggest_float("learning_rate", 0.005, 0.1),
                 "min_child_samples": trial.suggest_int(
-                    "min_child_samples", 20, 50, step=5
+                    "min_child_samples", 5, 50, step=5
                 ),
-                "max_depth": 5,
-                "lambda_l1": trial.suggest_float("lambda_l1", 1e-3, 10.0, log=True),
-                "lambda_l2": trial.suggest_float("lambda_l2", 1e-3, 10.0, log=True),
+                "max_depth": 3,
+                "lambda_l1": trial.suggest_float("lambda_l1", 1e-1, 10.0),
+                "lambda_l2": trial.suggest_float("lambda_l2", 1e-1, 10.0),
             }
 
         self._param_space = {"ml_g": ml_g_params, "ml_m": ml_m_params}
 
         self._optuna_settings = {
-            "n_trials": 200,
+            "n_trials": 50,
             "show_progress_bar": False,
             "verbosity": optuna.logging.WARNING,  # Suppress Optuna logs
         }
diff --git a/results/did/did_pa_multi_tune_config.yml b/results/did/did_pa_multi_tune_config.yml
@@ -1,11 +1,11 @@
 simulation_parameters:
-  repetitions: 2
+  repetitions: 50
   max_runtime: 19800
   random_seed: 42
   n_jobs: -2
 dgp_parameters:
   DGP:
-  - 1
+  - 4
   n_obs:
   - 2000
 learner_definitions:
diff --git a/results/did/did_pa_multi_tune_detailed.csv b/results/did/did_pa_multi_tune_detailed.csv
@@ -1,5 +1,5 @@
 Learner g,Learner m,Score,In-sample-norm.,DGP,level,Tuned,Coverage,CI Length,Bias,Uniform Coverage,Uniform CI Length,repetition
-LGBM Regr.,LGBM Clas.,observational,True,1,0.9,False,0.9166666666666667,0.9768034697095042,0.23400349839993873,1.0,1.5475751781406841,2
-LGBM Regr.,LGBM Clas.,observational,True,1,0.9,True,0.875,0.606470751441224,0.1614408775625408,0.5,0.9452913645347121,2
-LGBM Regr.,LGBM Clas.,observational,True,1,0.95,False,1.0,1.163933124038929,0.23400349839993873,1.0,1.6901781219508825,2
-LGBM Regr.,LGBM Clas.,observational,True,1,0.95,True,0.875,0.7226544727294515,0.1614408775625408,0.5,1.033662115539573,2
+LGBM Regr.,LGBM Clas.,observational,True,4,0.9,False,0.9316666666666668,1.4966891600161318,0.32660664033390235,0.92,2.3216053508736927,50
+LGBM Regr.,LGBM Clas.,observational,True,4,0.9,True,0.7116666666666667,0.6931755373364055,0.26877949164802883,0.52,1.075386978472972,50
+LGBM Regr.,LGBM Clas.,observational,True,4,0.95,False,0.9666666666666667,1.783415132883231,0.32660664033390235,0.98,2.5480137105876035,50
+LGBM Regr.,LGBM Clas.,observational,True,4,0.95,True,0.805,0.8259695974659736,0.26877949164802883,0.8,1.1805791952374205,50
diff --git a/results/did/did_pa_multi_tune_eventstudy.csv b/results/did/did_pa_multi_tune_eventstudy.csv
@@ -1,5 +1,5 @@
 Learner g,Learner m,Score,In-sample-norm.,DGP,level,Tuned,Coverage,CI Length,Bias,Uniform Coverage,Uniform CI Length,repetition
-LGBM Regr.,LGBM Clas.,observational,True,1,0.9,False,1.0,0.8932471261067743,0.22134836624169563,1.0,1.2842220318304163,2
-LGBM Regr.,LGBM Clas.,observational,True,1,0.9,True,0.8333333333333333,0.5517000133722438,0.171384287662864,0.5,0.7722944107543078,2
-LGBM Regr.,LGBM Clas.,observational,True,1,0.95,False,1.0,1.0643695996876914,0.22134836624169563,1.0,1.4044272167279779,2
-LGBM Regr.,LGBM Clas.,observational,True,1,0.95,True,0.9166666666666667,0.6573911129611814,0.171384287662864,0.5,0.8460573095770816,2
+LGBM Regr.,LGBM Clas.,observational,True,4,0.9,False,0.93,1.4917723511590009,0.31094318906305424,1.0,2.046812212784216,50
+LGBM Regr.,LGBM Clas.,observational,True,4,0.9,True,0.6133333333333334,0.6538130173979115,0.2872303658356806,0.56,0.9020402355007543,50
+LGBM Regr.,LGBM Clas.,observational,True,4,0.95,False,0.9866666666666667,1.777556393770557,0.31094318906305424,1.0,2.302979981417753,50
+LGBM Regr.,LGBM Clas.,observational,True,4,0.95,True,0.7533333333333333,0.7790662620225798,0.2872303658356806,0.7,1.0094757455236818,50
diff --git a/results/did/did_pa_multi_tune_group.csv b/results/did/did_pa_multi_tune_group.csv
@@ -1,5 +1,5 @@
 Learner g,Learner m,Score,In-sample-norm.,DGP,level,Tuned,Coverage,CI Length,Bias,Uniform Coverage,Uniform CI Length,repetition
-LGBM Regr.,LGBM Clas.,observational,True,1,0.9,False,0.8333333333333333,0.9252764729189984,0.27505916642335154,1.0,1.1910838199026417,2
-LGBM Regr.,LGBM Clas.,observational,True,1,0.9,True,0.8333333333333333,0.6185581636672488,0.18895139098415115,0.5,0.7900541517154416,2
-LGBM Regr.,LGBM Clas.,observational,True,1,0.95,False,1.0,1.10253492040176,0.27505916642335154,1.0,1.328849771012091,2
-LGBM Regr.,LGBM Clas.,observational,True,1,0.95,True,0.8333333333333333,0.7370575127575214,0.18895139098415115,0.5,0.8906147435536307,2
+LGBM Regr.,LGBM Clas.,observational,True,4,0.9,False,0.9533333333333333,1.523584682406954,0.2957296523184597,0.98,1.9163577588137022,50
+LGBM Regr.,LGBM Clas.,observational,True,4,0.9,True,0.68,0.7074931257281757,0.29440880930589985,0.6,0.9006828631295234,50
+LGBM Regr.,LGBM Clas.,observational,True,4,0.95,False,0.9933333333333333,1.8154631244903028,0.2957296523184597,0.98,2.1923219567713677,50
+LGBM Regr.,LGBM Clas.,observational,True,4,0.95,True,0.7666666666666666,0.8430300563016622,0.29440880930589985,0.74,1.0223420230094116,50
diff --git a/results/did/did_pa_multi_tune_metadata.csv b/results/did/did_pa_multi_tune_metadata.csv
@@ -1,2 +1,2 @@
 DoubleML Version,Script,Date,Total Runtime (minutes),Python Version,Config File
-0.12.dev0,DIDMultiTuningCoverageSimulation,2025-11-27 21:14,8.742515516281127,3.12.9,scripts/did/did_pa_multi_tune_config.yml
+0.12.dev0,DIDMultiTuningCoverageSimulation,2025-11-28 08:04,10.720669198036195,3.12.9,scripts/did/did_pa_multi_tune_config.yml
diff --git a/results/did/did_pa_multi_tune_time.csv b/results/did/did_pa_multi_tune_time.csv
@@ -1,5 +1,5 @@
 Learner g,Learner m,Score,In-sample-norm.,DGP,level,Tuned,Coverage,CI Length,Bias,Uniform Coverage,Uniform CI Length,repetition
-LGBM Regr.,LGBM Clas.,observational,True,1,0.9,False,0.8333333333333333,0.9347149637122762,0.21239079355381435,1.0,1.1850129288693911,2
-LGBM Regr.,LGBM Clas.,observational,True,1,0.9,True,0.8333333333333333,0.5539493870014797,0.16522070900786323,1.0,0.6750979119813514,2
-LGBM Regr.,LGBM Clas.,observational,True,1,0.95,False,1.0,1.1137815758610201,0.21239079355381435,1.0,1.299771642249359,2
-LGBM Regr.,LGBM Clas.,observational,True,1,0.95,True,1.0,0.6600714069574607,0.16522070900786323,1.0,0.7914255322117764,2
+LGBM Regr.,LGBM Clas.,observational,True,4,0.9,False,0.9533333333333333,1.5850230603285973,0.31390770251930433,0.96,1.9287985346498584,50
+LGBM Regr.,LGBM Clas.,observational,True,4,0.9,True,0.5333333333333333,0.6805542616676624,0.31796626809821743,0.46,0.8338119946003776,50
+LGBM Regr.,LGBM Clas.,observational,True,4,0.95,False,0.9733333333333333,1.888671467179226,0.31390770251930433,0.98,2.212665951882592,50
+LGBM Regr.,LGBM Clas.,observational,True,4,0.95,True,0.68,0.8109304199097704,0.31796626809821743,0.62,0.9546449744673592,50
diff --git a/scripts/did/did_pa_multi_tune_config.yml b/scripts/did/did_pa_multi_tune_config.yml
@@ -1,13 +1,13 @@
 # Simulation parameters for DID Multi Coverage
 
 simulation_parameters:
-  repetitions: 2
+  repetitions: 50
   max_runtime: 19800 # 5.5 hours in seconds
   random_seed: 42
   n_jobs: -2
 
 dgp_parameters:
-  DGP: [1] # Different DGP specifications
+  DGP: [4] # Different DGP specifications
   n_obs: [2000] # Sample size for each simulation (has to be a list)
 
 # Define reusable learner configurations

Original file line number	Diff line number	Diff line change
`@@ -1,2 +1,2 @@`
`1`	`1`	`DoubleML Version,Script,Date,Total Runtime (minutes),Python Version,Config File`
`2`		`-0.12.dev0,DIDMultiTuningCoverageSimulation,2025-11-27 21:14,8.742515516281127,3.12.9,scripts/did/did_pa_multi_tune_config.yml`
	`2`	`+0.12.dev0,DIDMultiTuningCoverageSimulation,2025-11-28 08:04,10.720669198036195,3.12.9,scripts/did/did_pa_multi_tune_config.yml`