fix: resolve flake8 linting errors

ritunjaym · claude · ritunjaym · commit aa86fc2cd1b5 · 2026-03-06T11:26:25.000-05:00
Unused imports (F401):
- sidecar/embedding_service.py: remove List, numpy
- sidecar/index_service.py: remove Optional
- spark/jobs/incremental_ingest.py: remove col

F-strings without placeholders (F541):
- scripts/build_faiss_index.py: f"Index saved successfully!" → plain string
- sidecar/server.py: f"Configuration:" → plain string

Alignment spaces (E221):
- scripts/prepare_demo_data.py: remove extra spaces on 9 constant assignments,
  _make_text locals, generate_embeddings locals, and build_faiss_index locals

Long lines &gt;120 chars (E501):
- sidecar/embedding_service.py:37: extract dim variable
- sidecar/index_service.py:186: wrap set_details call
- spark/jobs/ingest_and_embed.py:203: wrap df.select call

Test import order (E402):
- Move sys.path.insert above third-party imports; add noqa: E402 markers

Unused variables (F841):
- test_embedding_service.py: drop response= in empty-text and empty-batch tests
- test_index_service.py: drop response= in wrong-shard and wrong-dimension tests

Co-Authored-By: Claude Sonnet 4.6 &lt;noreply@anthropic.com&gt;
diff --git a/scripts/build_faiss_index.py b/scripts/build_faiss_index.py
@@ -143,7 +143,7 @@ def save_index(index, output_path):
 
     # Print index statistics
     file_size_mb = os.path.getsize(output_path) / (1024 * 1024)
-    logger.info(f"Index saved successfully!")
+    logger.info("Index saved successfully!")
     logger.info(f"  - File size: {file_size_mb:.2f} MB")
     logger.info(f"  - Total vectors: {index.ntotal}")
     logger.info(f"  - Dimension: {index.d}")
diff --git a/scripts/prepare_demo_data.py b/scripts/prepare_demo_data.py
@@ -33,15 +33,15 @@
 import vector_service_pb2_grpc     # noqa: E402
 
 # ── Configuration ─────────────────────────────────────────────────────────────
-SIDECAR_ADDR    = os.getenv("SIDECAR_ADDR", "localhost:50051")
-TAXI_DATA_URL   = "https://d37ci6vzurychx.cloudfront.net/trip-data/yellow_tripdata_2023-01.parquet"
-RAW_FILE        = os.path.join(REPO_ROOT, "data", "raw", "yellow_tripdata_2023-01.parquet")
-DEMO_FILE       = os.path.join(REPO_ROOT, "data", "demo", "taxi_trips_10k.parquet")
-INDEX_DIR       = os.path.join(REPO_ROOT, "data", "indexes")
-INDEX_FILE      = os.path.join(INDEX_DIR, "nyc_taxi_2023.index")
-SAMPLE_SIZE     = 10_000
-RANDOM_SEED     = 42
-BATCH_SIZE      = 256   # texts per gRPC batch call
+SIDECAR_ADDR = os.getenv("SIDECAR_ADDR", "localhost:50051")
+TAXI_DATA_URL = "https://d37ci6vzurychx.cloudfront.net/trip-data/yellow_tripdata_2023-01.parquet"
+RAW_FILE = os.path.join(REPO_ROOT, "data", "raw", "yellow_tripdata_2023-01.parquet")
+DEMO_FILE = os.path.join(REPO_ROOT, "data", "demo", "taxi_trips_10k.parquet")
+INDEX_DIR = os.path.join(REPO_ROOT, "data", "indexes")
+INDEX_FILE = os.path.join(INDEX_DIR, "nyc_taxi_2023.index")
+SAMPLE_SIZE = 10_000
+RANDOM_SEED = 42
+BATCH_SIZE = 256  # texts per gRPC batch call
 
 
 # ── Step 1: Download and sample ───────────────────────────────────────────────
@@ -60,7 +60,7 @@ def report(block, block_size, total):
             downloaded = block * block_size
             if total > 0:
                 pct = min(100, downloaded * 100 // total)
-                mb  = downloaded / 1_048_576
+                mb = downloaded / 1_048_576
                 print(f"\r  {pct}% ({mb:.0f} MB)", end="", flush=True)
 
         urllib.request.urlretrieve(TAXI_DATA_URL, RAW_FILE, reporthook=report)
@@ -107,12 +107,12 @@ def _check_sidecar():
 
 def _make_text(row) -> str:
     """Convert a taxi trip row into a natural-language string for embedding."""
-    pu         = int(row.get('PULocationID', 0))
-    do         = int(row.get('DOLocationID', 0))
-    dist       = float(row.get('trip_distance', 0))
-    fare       = float(row.get('fare_amount', 0))
+    pu = int(row.get('PULocationID', 0))
+    do = int(row.get('DOLocationID', 0))
+    dist = float(row.get('trip_distance', 0))
+    fare = float(row.get('fare_amount', 0))
     passengers = int(row.get('passenger_count', 1))
-    pax        = "passengers" if passengers > 1 else "passenger"
+    pax = "passengers" if passengers > 1 else "passenger"
     return (
         f"Yellow taxi trip from zone {pu} to zone {do}, "
         f"{dist:.1f} miles, ${fare:.2f} fare, {passengers} {pax}"
@@ -129,14 +129,14 @@ def generate_embeddings(demo_file: str) -> np.ndarray:
     texts = [_make_text(row) for _, row in df.iterrows()]
 
     channel = grpc.insecure_channel(SIDECAR_ADDR)
-    stub    = vector_service_pb2_grpc.EmbeddingServiceStub(channel)
+    stub = vector_service_pb2_grpc.EmbeddingServiceStub(channel)
 
     all_embeddings = []
     total = len(texts)
 
     for start in range(0, total, BATCH_SIZE):
         batch = texts[start : start + BATCH_SIZE]
-        request  = vector_service_pb2.EmbeddingBatchRequest(texts=batch)
+        request = vector_service_pb2.EmbeddingBatchRequest(texts=batch)
         response = stub.GenerateEmbeddingBatch(request)
         for emb in response.embeddings:
             all_embeddings.append(emb.vector)  # field name is `vector`
@@ -163,11 +163,11 @@ def build_faiss_index(embeddings: np.ndarray) -> str:
     # For 10K vectors: nlist=32 gives ~300 vectors/cell (√10K ≈ 100, but 32
     # is safer for training), m=8 subvectors × 8 bits = 1 byte/subvector
     nlist = 32
-    m     = 8
+    m = 8
     nbits = 8
 
     quantizer = faiss.IndexFlatL2(d)
-    index     = faiss.IndexIVFPQ(quantizer, d, nlist, m, nbits)
+    index = faiss.IndexIVFPQ(quantizer, d, nlist, m, nbits)
 
     print(f"  Training IVF{nlist},PQ{m}×{nbits} on {n:,} vectors...")
     index.train(embeddings)
@@ -208,7 +208,7 @@ def main():
         return
 
     try:
-        demo_file  = download_sample()
+        demo_file = download_sample()
         embeddings = generate_embeddings(demo_file)
         build_faiss_index(embeddings)
 
diff --git a/sidecar/embedding_service.py b/sidecar/embedding_service.py
@@ -4,9 +4,7 @@
 Supports single and batch embedding generation.
 """
 import logging
-from typing import List
 import grpc
-import numpy as np
 from sentence_transformers import SentenceTransformer
 import vector_service_pb2
 import vector_service_pb2_grpc
@@ -34,7 +32,8 @@ def __init__(self, model_name: str = "all-MiniLM-L6-v2"):
         logger.info(f"Loading embedding model: {model_name}")
         self.model = SentenceTransformer(model_name)
         self.model_name = model_name
-        logger.info(f"Model {model_name} loaded successfully. Embedding dimension: {self.model.get_sentence_embedding_dimension()}")
+        dim = self.model.get_sentence_embedding_dimension()
+        logger.info(f"Model {model_name} loaded successfully. Embedding dimension: {dim}")
 
     def GenerateEmbedding(self, request, context):
         """
diff --git a/sidecar/index_service.py b/sidecar/index_service.py
@@ -6,7 +6,7 @@
 import logging
 import os
 import threading
-from typing import Dict, Optional
+from typing import Dict
 import grpc
 import faiss
 import numpy as np
@@ -183,7 +183,9 @@ def SearchIndex(self, request, context):
 
             if query_vector.shape[0] != shard.dimension:
                 context.set_code(grpc.StatusCode.INVALID_ARGUMENT)
-                context.set_details(f"Query dimension {query_vector.shape[0]} does not match index dimension {shard.dimension}")
+                context.set_details(
+                    f"Query dimension {query_vector.shape[0]} does not match index dimension {shard.dimension}"
+                )
                 return vector_service_pb2.SearchResponse()
 
             top_k = request.top_k if request.top_k > 0 else 10
diff --git a/sidecar/server.py b/sidecar/server.py
@@ -81,7 +81,7 @@ def signal_handler(sig, frame):
     signal.signal(signal.SIGTERM, signal_handler)
 
     logger.info(f"Starting gRPC server on port {GRPC_PORT}")
-    logger.info(f"Configuration:")
+    logger.info("Configuration:")
     logger.info(f"  - Embedding Model: {EMBEDDING_MODEL}")
     logger.info(f"  - Index Directory: {INDEX_DIR}")
     logger.info(f"  - Max Workers: {MAX_WORKERS}")
diff --git a/sidecar/tests/test_embedding_service.py b/sidecar/tests/test_embedding_service.py
@@ -4,14 +4,14 @@
 """
 import sys
 import os
-import pytest
-import numpy as np
 
 # Add parent directory to path so we can import sidecar modules
 sys.path.insert(0, os.path.abspath(os.path.join(os.path.dirname(__file__), '..')))
 
-from embedding_service import EmbeddingServiceImpl
-import vector_service_pb2
+import pytest  # noqa: E402
+import numpy as np  # noqa: E402
+from embedding_service import EmbeddingServiceImpl  # noqa: E402
+import vector_service_pb2  # noqa: E402
 
 
 class MockContext:
@@ -58,7 +58,7 @@ def test_generate_embedding_empty_text(embedding_service):
     request = vector_service_pb2.EmbeddingRequest(text="", model_name="all-MiniLM-L6-v2")
     context = MockContext()
 
-    response = embedding_service.GenerateEmbedding(request, context)
+    embedding_service.GenerateEmbedding(request, context)
 
     assert context.code is not None  # Should set error code
     assert "empty" in context.details.lower()
@@ -105,7 +105,7 @@ def test_generate_embedding_batch_empty(embedding_service):
     request = vector_service_pb2.EmbeddingBatchRequest(texts=[])
     context = MockContext()
 
-    response = embedding_service.GenerateEmbeddingBatch(request, context)
+    embedding_service.GenerateEmbeddingBatch(request, context)
 
     assert context.code is not None
     assert "required" in context.details.lower() or "empty" in context.details.lower()
diff --git a/sidecar/tests/test_index_service.py b/sidecar/tests/test_index_service.py
@@ -4,17 +4,17 @@
 """
 import sys
 import os
-import pytest
-import tempfile
-import shutil
-import numpy as np
-import faiss
 
 # Add parent directory to path
 sys.path.insert(0, os.path.abspath(os.path.join(os.path.dirname(__file__), '..')))
 
-from index_service import IndexServiceImpl, ShardIndex
-import vector_service_pb2
+import pytest  # noqa: E402
+import tempfile  # noqa: E402
+import shutil  # noqa: E402
+import numpy as np  # noqa: E402
+import faiss  # noqa: E402
+from index_service import IndexServiceImpl, ShardIndex  # noqa: E402
+import vector_service_pb2  # noqa: E402
 
 
 class MockContext:
@@ -139,7 +139,7 @@ def test_index_service_search_wrong_shard(temp_index_dir):
     )
     context = MockContext()
 
-    response = service.SearchIndex(request, context)
+    service.SearchIndex(request, context)
 
     assert context.code is not None  # Should set error code
     assert "not found" in context.details.lower()
@@ -159,7 +159,7 @@ def test_index_service_search_wrong_dimension(temp_index_dir):
     )
     context = MockContext()
 
-    response = service.SearchIndex(request, context)
+    service.SearchIndex(request, context)
 
     assert context.code is not None
     assert "dimension" in context.details.lower()
diff --git a/spark/jobs/incremental_ingest.py b/spark/jobs/incremental_ingest.py
@@ -5,7 +5,7 @@
 """
 from delta.tables import DeltaTable
 from pyspark.sql import SparkSession
-from pyspark.sql.functions import col, current_timestamp
+from pyspark.sql.functions import current_timestamp
 import argparse
 
 
diff --git a/spark/jobs/ingest_and_embed.py b/spark/jobs/ingest_and_embed.py
@@ -200,7 +200,9 @@ def main():
 
         # Show sample results
         logger.info("Sample embedded records:")
-        df_final.select("PULocationID", "DOLocationID", "trip_distance", "fare_amount", "embedding_dimension").show(5, truncate=False)
+        df_final.select(
+            "PULocationID", "DOLocationID", "trip_distance", "fare_amount", "embedding_dimension"
+        ).show(5, truncate=False)
 
     except Exception as e:
         logger.error(f"Job failed with error: {e}", exc_info=True)