feat: add Pearson correlation as regression fitness function (fit: pearson)

eprifti · eprifti · commit b96650edd06e · 2026-03-25T23:47:39.000+01:00
diff --git a/src/data.rs b/src/data.rs
@@ -1153,6 +1153,7 @@ impl Data {
         let is_regression = matches!(
             param.general.fit,
             crate::param::FitFunction::spearman
+                | crate::param::FitFunction::pearson
                 | crate::param::FitFunction::rmse
                 | crate::param::FitFunction::mutual_information
         );
diff --git a/src/param.rs b/src/param.rs
@@ -28,6 +28,8 @@ pub enum FitFunction {
     g_mean,
     /// Spearman rank correlation (regression mode)
     spearman,
+    /// Pearson linear correlation coefficient
+    pearson,
     /// Root Mean Squared Error (regression mode, negated so higher = better)
     rmse,
     /// Mutual Information (regression/classification)
@@ -79,6 +81,7 @@ pub enum FbmCIMethod {
     agresti_coull,
     /// Clopper-Pearson exact interval via Beta distribution quantiles.
     /// Conservative (guaranteed ≥ nominal coverage), widest intervals. Clopper & Pearson (1934).
+    /// Pearson linear correlation coefficient
     clopper_pearson,
 }
 
diff --git a/src/population.rs b/src/population.rs
@@ -340,7 +340,10 @@ impl Population {
             if param.general.bias_penalty != 0.0
                 && !matches!(
                     param.general.fit,
-                    FitFunction::spearman | FitFunction::rmse | FitFunction::mutual_information
+                    FitFunction::spearman
+                        | FitFunction::pearson
+                        | FitFunction::rmse
+                        | FitFunction::mutual_information
                 )
             {
                 if i.cls.sensitivity < 0.5 {
@@ -447,9 +450,10 @@ impl Population {
                 let penalties = match param.general.fit {
                     FitFunction::sensitivity => Some([param.general.fr_penalty, 1.0]),
                     FitFunction::specificity => Some([1.0, param.general.fr_penalty]),
-                    FitFunction::spearman | FitFunction::rmse | FitFunction::mutual_information => {
-                        None
-                    }
+                    FitFunction::spearman
+                    | FitFunction::pearson
+                    | FitFunction::rmse
+                    | FitFunction::mutual_information => None,
                     _ => None,
                 };
                 match param.general.fit {
@@ -513,6 +517,9 @@ impl Population {
                     FitFunction::spearman => {
                         i.fit = crate::utils::spearman_correlation(&scores, &data.y);
                     }
+                    FitFunction::pearson => {
+                        i.fit = crate::utils::pearson_correlation(&scores, &data.y);
+                    }
                     FitFunction::rmse => {
                         i.fit = crate::utils::neg_rmse(&scores, &data.y);
                     }
diff --git a/src/utils.rs b/src/utils.rs
@@ -706,7 +706,10 @@ pub fn compute_roc_and_metrics_from_value(
         FitFunction::ppv => ppv(tp_init, fp_init),
         FitFunction::g_mean => g_mean(sens_init, spec_init),
         // Regression metrics — threshold optimization not applicable
-        FitFunction::spearman | FitFunction::rmse | FitFunction::mutual_information => 0.0,
+        FitFunction::spearman
+        | FitFunction::pearson
+        | FitFunction::rmse
+        | FitFunction::mutual_information => 0.0,
     };
 
     if obj_init > best_objective {
@@ -765,7 +768,10 @@ pub fn compute_roc_and_metrics_from_value(
             FitFunction::npv => npv(tn, fn_count),
             FitFunction::ppv => ppv(tp, fp),
             FitFunction::g_mean => g_mean(sensitivity, specificity),
-            FitFunction::spearman | FitFunction::rmse | FitFunction::mutual_information => 0.0,
+            FitFunction::spearman
+            | FitFunction::pearson
+            | FitFunction::rmse
+            | FitFunction::mutual_information => 0.0,
         };
 
         if objective > best_objective {
@@ -956,6 +962,40 @@ pub fn spearman_correlation(x: &[f64], y: &[f64]) -> f64 {
     cov / (var_x.sqrt() * var_y.sqrt())
 }
 
+/// Compute Pearson correlation coefficient between two vectors.
+///
+/// Returns r ∈ [-1, 1]. Higher = stronger linear association.
+/// Unlike Spearman (rank-based), Pearson measures linear correlation on raw values.
+pub fn pearson_correlation(x: &[f64], y: &[f64]) -> f64 {
+    assert_eq!(x.len(), y.len(), "Pearson: vectors must have equal length");
+    let n = x.len();
+    if n < 2 {
+        return 0.0;
+    }
+
+    let n_f = n as f64;
+    let mean_x: f64 = x.iter().sum::<f64>() / n_f;
+    let mean_y: f64 = y.iter().sum::<f64>() / n_f;
+
+    let mut cov = 0.0;
+    let mut var_x = 0.0;
+    let mut var_y = 0.0;
+
+    for i in 0..n {
+        let dx = x[i] - mean_x;
+        let dy = y[i] - mean_y;
+        cov += dx * dy;
+        var_x += dx * dx;
+        var_y += dy * dy;
+    }
+
+    if var_x == 0.0 || var_y == 0.0 {
+        return 0.0;
+    }
+
+    cov / (var_x.sqrt() * var_y.sqrt())
+}
+
 /// Compute negative Root Mean Squared Error between predictions and targets.
 ///
 /// Returns -RMSE so that higher = better (consistent with other fit functions).