Fix some bugs

xfchen0912 · xfchen0912 · commit 002da4b75fd2 · 2025-12-03T14:44:59.000Z
diff --git a/.gitignore b/.gitignore
@@ -2,6 +2,7 @@
 .DS_Store
 *~
 buck-out/
+tmp/
 
 # Compiled files
 .venv/
@@ -22,7 +23,10 @@ __pycache__/
 # docs
 /docs/generated/
 /docs/_build/
+
+# Vibe code assistant
 .aider*
+CLAUDE*
 
 # tox
 .tox/
diff --git a/pyproject.toml b/pyproject.toml
@@ -28,9 +28,12 @@ dependencies = [
   "decoupler>=2.1.1",
   "deprecated",
   "genomepy>=0.16.1",
+  "ipython<9",
   "moods-python",
   "mudata<=0.2.3",
   "netgraph",
+  "numpy<2",
+  "pandas<=2.3.1",
   "pillow<12",
   "pooch",
   "pyarrow<=20",
@@ -73,11 +76,16 @@ optional-dependencies.doc = [
   "sphinxext-opengraph",
 ]
 
+optional-dependencies.jupyter = [
+  "ipykernel",
+  "ipywidgets",
+]
 optional-dependencies.test = [
   "coverage",
   "pytest",
   "tox",
 ]
+
 # https://docs.pypi.org/project_metadata/#project-urls
 urls.Documentation = "https://scMagnify.readthedocs.io/"
 urls.Homepage = "https://github.com/xfchen0912/scMagnify"
diff --git a/src/scmagnify/models/_train.py b/src/scmagnify/models/_train.py
@@ -5,7 +5,6 @@
 import decoupler as dc
 import numpy as np
 import pandas as pd
-import scanpy as sc
 import torch
 import torch.nn as nn
 import torch.nn.functional as F
@@ -82,6 +81,7 @@ def __init__(
         time_key: str = "palantir_pseudotime",
         gene_selected: list[str] | None = None,
         basal_grn: NDArray | None = None,
+        use_rep: str = "X_pca",
         func: nn.Module = MSNGC,
         hidden: list[int] = [50],
         lag: int = 5,
@@ -152,7 +152,7 @@ def __init__(
             )
 
         # Preprocess data.
-        self.AX, self.Y, self.T = self._preprocess_data()
+        self.AX, self.Y, self.T = self._preprocess_data(use_rep=use_rep)
 
         self.n_reg = self.adata_fil[:, self.adata_fil.var["is_reg"]].shape[1]
         self.n_target = self.adata_fil[:, self.adata_fil.var["is_target"]].shape[1]
@@ -181,7 +181,7 @@ def __init__(
 
         self.criterion = loss.MSELoss()
 
-    def _preprocess_data(self) -> tuple[torch.Tensor, torch.Tensor, torch.Tensor]:
+    def _preprocess_data(self, use_rep="X_pca") -> tuple[torch.Tensor, torch.Tensor, torch.Tensor]:
         """
         Preprocess data for training.
 
@@ -191,7 +191,7 @@ def _preprocess_data(self) -> tuple[torch.Tensor, torch.Tensor, torch.Tensor]:
             Preprocessed data tensors (AX, Y, T).
         """
         # Preprocess data.
-        sc.pp.neighbors(self.adata_fil, n_neighbors=30)
+        # sc.pp.neighbors(self.adata_fil, n_neighbors=30, use_rep=use_rep)
         AX = partial_ordering(self.adata_fil[:, self.adata_fil.var["is_reg"]], dyn=self.time_key, lag=self.lag)
         Y = normalize_data(self.adata_fil[:, self.adata_fil.var["is_target"]].X.A)
         T = self.adata_fil.obs[self.time_key].values
@@ -272,7 +272,7 @@ def _train_epoch(
 
             # Temporal smoothness penalty term
             T_idx = np.argsort(T_batch.detach().cpu().numpy())
-            T_plus1 = T + 1
+            T_plus1 = T_idx + 1
             AX_Tplus1 = AX[np.where(np.isin(T_idx, T_plus1))[0], :, :]
 
             coeffs_Tplus1, _, _ = self.model(AX_Tplus1)
diff --git a/src/scmagnify/tools/_motif_scan.py b/src/scmagnify/tools/_motif_scan.py
@@ -17,7 +17,6 @@
 from rich.progress import Progress, TaskID
 from rich.table import Table
 
-import scmagnify as scm
 from scmagnify import logging as logg
 from scmagnify.settings import settings
 from scmagnify.utils import _list_to_str, d
@@ -41,7 +40,7 @@
 ]
 
 _BACKGROUND = Literal["subject", "genome", "even"]
-MOTIF_DIR = os.path.join(os.path.dirname(scm.__file__), "data", "motifs")
+MOTIF_DIR = os.path.join(settings.scm_data, "motifs")
 
 
 def _add_peak_seq(
@@ -133,7 +132,7 @@ def _add_peak_info(
                     "start": start,
                     "end": end,
                     "width": width,
-                    "GC": gc_content,
+                    "GC_bin": gc_content,
                     "N": n_content,
                 }
             )
@@ -723,7 +722,9 @@ def write_jaspar(motif_dict: dict[str, pd.DataFrame], file_path: str, pseudo_cou
     """
     with open(file_path, "w") as f:
         for motif_id, df in motif_dict.items():
-            f.write(f">{motif_id}\n")
+            # MA0007.3 Ar
+            factor_name = motif_id.split("_")[-1]  # Extract motif name if needed
+            f.write(f">{motif_id} {factor_name}\n")
             # Convert probabilities to pseudo-counts
             counts_df = (df * pseudo_counts).round().astype(int)
 
diff --git a/src/scmagnify/tools/_peak_gene_corr.py b/src/scmagnify/tools/_peak_gene_corr.py
@@ -438,6 +438,13 @@ def connect_peaks_genes(
 
     sc.pp.filter_genes(meta_rna_adata, min_cells=3)
 
+    # # Check GC content in ATAC data
+    # if "GC" not in meta_atac_adata.var.columns:
+    #     from scmagnify.tools._motif_scan import _add_peak_info
+
+    #     logg.info("Adding GC content to ATAC data...")
+    #     _add_peak_info(meta_atac_adata)
+
     if gene_selected is None:
         adata = _get_data_modal(data, rna_key)
         if "significant_genes" in adata.var.keys():