Gen-only sync KV transfer for dis-agg

Shixiaowei02 · Shixiaowei02 · commit a2b012d80c16 · 2026-04-09T15:20:41.000+08:00
Signed-off-by: Shixiaowei02 &lt;39303645+Shixiaowei02@users.noreply.github.com&gt;
diff --git a/tensorrt_llm/_torch/disaggregation/transceiver.py b/tensorrt_llm/_torch/disaggregation/transceiver.py
@@ -310,8 +310,31 @@ def respond_and_send_async(self, req: LlmRequest):
         )
         self._send_reqs[rid] = req
 
+    @nvtx_range("KvCacheTransceiverV2.request_and_receive_sync")
     def request_and_receive_sync(self, req: LlmRequest):
-        raise NotImplementedError("request_and_receive_sync is not implemented")
+        rid = get_unique_rid(req)
+        if rid in self._recv_sessions:
+            logger.warning(
+                f"request_and_receive_sync: rid={rid} already has a recv session, skipping"
+            )
+            return
+        req.state = LlmRequestState.DISAGG_GENERATION_TRANS_IN_PROGRESS
+        session = self._transfer_worker.create_rx_session(req)
+        self._recv_sessions[rid] = session
+        self._recv_reqs[rid] = req
+        session.receive(self._create_kv_slice(req))
+        result = session.wait_complete(blocking=True)
+
+        if result == WaitResult.COMPLETED:
+            if self._need_aux_transfer(req):
+                self._apply_aux(session, req)
+            req.state = LlmRequestState.DISAGG_GENERATION_TRANS_COMPLETE
+        else:
+            req.state = LlmRequestState.DISAGG_TRANS_ERROR
+
+        session.close()
+        del self._recv_sessions[rid]
+        del self._recv_reqs[rid]
 
     @nvtx_range("KvCacheTransceiverV2.request_and_receive_async")
     def request_and_receive_async(self, req: LlmRequest):
diff --git a/tests/integration/defs/accuracy/test_disaggregated_serving.py b/tests/integration/defs/accuracy/test_disaggregated_serving.py
@@ -956,6 +956,145 @@ def test_nixl_backend(self):
                                       self.MODEL_PATH) as llm:
             run_accuracy_test(llm, self.MODEL_NAME, ["MMLU", "GSM8K"])
 
+    @pytest.mark.skip_less_device(2)
+    @pytest.mark.skip_less_device_memory(60000)
+    @skip_no_hopper
+    def test_gen_only_sync(self):
+        """Test gen-only synchronous KV transfer path with NIXL Python transceiver.
+
+        Sets TRTLLM_DISABLE_KV_CACHE_TRANSFER_OVERLAP=1 so the gen worker calls
+        request_and_receive_sync instead of the async path, mirroring the
+        gen-only benchmark mode used for disagg serving performance measurement.
+        TLLM_BENCHMARK_REQ_QUEUES_SIZE pre-saturates the gen queue with N requests
+        before the first forward pass (one-time warmup), then processing continues
+        normally. Accuracy must be identical to the standard async path.
+        """
+        ctx_server_config = {
+            "disable_overlap_scheduler": True,
+            "cache_transceiver_config": {
+                "backend": "NIXL",
+                "transceiver_runtime": "PYTHON",
+                "max_tokens_in_buffer": 4096,
+            },
+        }
+        gen_server_config = {
+            "disable_overlap_scheduler": True,
+            "cache_transceiver_config": {
+                "backend": "NIXL",
+                "transceiver_runtime": "PYTHON",
+                "max_tokens_in_buffer": 4096,
+            },
+        }
+        disaggregated_server_config = {
+            "hostname": "localhost",
+            "backend": "pytorch",
+            "context_servers": {
+                "num_instances": 1
+            },
+            "generation_servers": {
+                "num_instances": 1
+            },
+        }
+        extra_env = {
+            # Use synchronous receive: request_and_receive_sync instead of async.
+            "TRTLLM_DISABLE_KV_CACHE_TRANSFER_OVERLAP": "1",
+            # Pre-saturate the gen queue with 4 requests before the first
+            # forward pass (matches gen-only benchmark setup).
+            "TLLM_BENCHMARK_REQ_QUEUES_SIZE": "4",
+        }
+        with launch_disaggregated_llm(disaggregated_server_config,
+                                      ctx_server_config,
+                                      gen_server_config,
+                                      self.MODEL_PATH,
+                                      extra_env=extra_env) as llm:
+            run_accuracy_test(llm, self.MODEL_NAME, ["GSM8K"])
+
+    @pytest.mark.skip_less_device(2)
+    @pytest.mark.skip_less_device_memory(60000)
+    @skip_no_hopper
+    def test_kv_cache_manager_v2(self):
+        """Test disaggregated serving with KVCacheManagerV2 and NIXL Python transceiver."""
+        ctx_server_config = {
+            "disable_overlap_scheduler": True,
+            "kv_cache_config": {
+                "use_kv_cache_manager_v2": True,
+            },
+            "cache_transceiver_config": {
+                "backend": "NIXL",
+                "transceiver_runtime": "PYTHON",
+                "max_tokens_in_buffer": 4096,
+            },
+        }
+        gen_server_config = {
+            "disable_overlap_scheduler": True,
+            "kv_cache_config": {
+                "use_kv_cache_manager_v2": True,
+            },
+            "cache_transceiver_config": {
+                "backend": "NIXL",
+                "transceiver_runtime": "PYTHON",
+                "max_tokens_in_buffer": 4096,
+            },
+        }
+        disaggregated_server_config = {
+            "hostname": "localhost",
+            "backend": "pytorch",
+            "context_servers": {
+                "num_instances": 1
+            },
+            "generation_servers": {
+                "num_instances": 1
+            },
+        }
+        with launch_disaggregated_llm(disaggregated_server_config,
+                                      ctx_server_config, gen_server_config,
+                                      self.MODEL_PATH) as llm:
+            run_accuracy_test(llm, self.MODEL_NAME, ["GSM8K"])
+
+    @pytest.mark.skip_less_device(8)
+    @skip_no_hopper
+    def test_kv_cache_manager_v2_ctx_tp2pp2_gen_tp4(self):
+        """Test KVCacheManagerV2 with asymmetric ctx/gen topology: ctx=tp2pp2, gen=tp4."""
+        ctx_server_config = {
+            "disable_overlap_scheduler": True,
+            "tensor_parallel_size": 2,
+            "pipeline_parallel_size": 2,
+            "kv_cache_config": {
+                "use_kv_cache_manager_v2": True,
+            },
+            "cache_transceiver_config": {
+                "backend": "NIXL",
+                "transceiver_runtime": "PYTHON",
+                "max_tokens_in_buffer": 4096,
+            },
+        }
+        gen_server_config = {
+            "disable_overlap_scheduler": True,
+            "tensor_parallel_size": 4,
+            "kv_cache_config": {
+                "use_kv_cache_manager_v2": True,
+            },
+            "cache_transceiver_config": {
+                "backend": "NIXL",
+                "transceiver_runtime": "PYTHON",
+                "max_tokens_in_buffer": 4096,
+            },
+        }
+        disaggregated_server_config = {
+            "hostname": "localhost",
+            "backend": "pytorch",
+            "context_servers": {
+                "num_instances": 1
+            },
+            "generation_servers": {
+                "num_instances": 1
+            },
+        }
+        with launch_disaggregated_llm(disaggregated_server_config,
+                                      ctx_server_config, gen_server_config,
+                                      self.MODEL_PATH) as llm:
+            run_accuracy_test(llm, self.MODEL_NAME, ["GSM8K"])
+
     @pytest.mark.skip_less_device(8)
     @parametrize_with_ids("overlap_scheduler", [True, False])
     @parametrize_with_ids("mtp_nextn", [0, 2])
diff --git a/tests/integration/test_lists/test-db/l0_dgx_h100.yml b/tests/integration/test_lists/test-db/l0_dgx_h100.yml
@@ -31,6 +31,8 @@ l0_dgx_h100:
   - accuracy/test_disaggregated_serving.py::TestQwen3_8B::test_chunked_prefill
   - accuracy/test_disaggregated_serving.py::TestQwen3_8B::test_nixl_backend
   - accuracy/test_disaggregated_serving.py::TestDeepSeekV3Lite::test_nixl_backend
+  - accuracy/test_disaggregated_serving.py::TestDeepSeekV3Lite::test_gen_only_sync
+  - accuracy/test_disaggregated_serving.py::TestDeepSeekV3Lite::test_kv_cache_manager_v2
   - accuracy/test_disaggregated_serving.py::TestLlama3_1_8BInstruct::test_ngram
   - accuracy/test_disaggregated_serving.py::TestGemma3_1BInstruct::test_auto_dtype[False]
   - accuracy/test_disaggregated_serving.py::TestGemma3_1BInstruct::test_auto_dtype[True]
diff --git a/tests/integration/test_lists/test-db/l0_dgx_h200.yml b/tests/integration/test_lists/test-db/l0_dgx_h200.yml
@@ -28,6 +28,7 @@ l0_dgx_h200:
   - accuracy/test_disaggregated_serving.py::TestDeepSeekV3Lite::test_auto_dtype[mtp_nextn=0-overlap_scheduler=False]
   - accuracy/test_disaggregated_serving.py::TestDeepSeekV3Lite::test_auto_dtype[mtp_nextn=2-overlap_scheduler=True]
   - accuracy/test_disaggregated_serving.py::TestDeepSeekV3Lite::test_auto_dtype[mtp_nextn=2-overlap_scheduler=False]
+  - accuracy/test_disaggregated_serving.py::TestDeepSeekV3Lite::test_kv_cache_manager_v2_ctx_tp2pp2_gen_tp4
   - accuracy/test_disaggregated_serving.py::TestLlama3_1_8BInstruct::test_tp_pp_symmetric[GSM8K-tp2pp2]
   - accuracy/test_disaggregated_serving.py::TestLlama3_1_8BInstruct::test_tp_pp_symmetric[MMLU-tp2pp2]
   - accuracy/test_disaggregated_serving.py::TestLlama3_1_8BInstruct::test_ctx_pp_gen_tp_asymmetric[GSM8K-gen_tp=1-ctx_pp=4]
diff --git a/tests/unittest/disaggregated/test_py_cache_transceiver_mp.py b/tests/unittest/disaggregated/test_py_cache_transceiver_mp.py
@@ -700,6 +700,10 @@ def gather_and_verify_request(
         _run_gen_first1_transfer(rank, is_ctx, transceiver, my_requests)
     elif ctx_gen_workflow == "gen_first2":
         _run_gen_first2_transfer(rank, is_ctx, transceiver, my_requests)
+    elif ctx_gen_workflow == "ctx_first_sync":
+        _run_ctx_first_sync_transfer(
+            rank, is_ctx, transceiver, my_requests, ctx_enable_dp, gen_enable_dp
+        )
     else:
         _run_ctx_first_transfer(
             rank, is_ctx, transceiver, my_requests, ctx_enable_dp, gen_enable_dp
@@ -886,6 +890,55 @@ def _wait_ctx_request_ready(transceiver, my_requests):
     return all_ready
 
 
+def _run_ctx_first_sync_transfer(
+    rank, is_ctx, transceiver, my_requests, ctx_enable_dp, gen_enable_dp
+):
+    """Context-first transfer using synchronous receive (request_and_receive_sync)."""
+    do_warmup = not ctx_enable_dp and not gen_enable_dp and len(my_requests) > 0
+    if do_warmup:
+        warmup_idx, warmup_request = my_requests[0]
+        remaining_requests = my_requests[1:]
+
+        if is_ctx:
+            print(f"[Rank {rank}] CTX: Submitting warmup request {warmup_idx}...", flush=True)
+            transceiver.respond_and_send_async(warmup_request)
+
+        print(f"[Rank {rank}] Before warmup barrier", flush=True)
+        dist.barrier()
+        print(f"[Rank {rank}] After warmup barrier", flush=True)
+
+        if not is_ctx:
+            print(f"[Rank {rank}] GEN: Sync-receiving warmup request {warmup_idx}...", flush=True)
+            transceiver.request_and_receive_sync(warmup_request)
+            print(f"[Rank {rank}] GEN: Warmup completed (sync)", flush=True)
+
+        if is_ctx:
+            transceiver.check_context_transfer_status(None)
+            print(f"[Rank {rank}] CTX: Warmup completed", flush=True)
+
+        print(f"[Rank {rank}] Before post-warmup barrier", flush=True)
+        dist.barrier()
+        print(f"[Rank {rank}] After post-warmup barrier", flush=True)
+    else:
+        remaining_requests = my_requests
+
+    if is_ctx:
+        for req_idx, request in remaining_requests:
+            print(f"[Rank {rank}] CTX: Submitting request {req_idx}...", flush=True)
+            transceiver.respond_and_send_async(request)
+        print(f"[Rank {rank}] CTX: Submitted {len(remaining_requests)} send requests", flush=True)
+
+    print(f"[Rank {rank}] Before phase2 barrier", flush=True)
+    dist.barrier()
+    print(f"[Rank {rank}] After phase2 barrier", flush=True)
+
+    if not is_ctx:
+        for req_idx, request in remaining_requests:
+            print(f"[Rank {rank}] GEN: Sync-receiving request {req_idx}...", flush=True)
+            transceiver.request_and_receive_sync(request)
+        print(f"[Rank {rank}] GEN: Sync-received {len(remaining_requests)} requests", flush=True)
+
+
 def _run_gen_first1_transfer(rank, is_ctx, transceiver, my_requests):
     """Generation-first transfer: ctx prepares first, then gen receives and ctx sends."""
     # Step 1: Context side calls prepare_context_requests, no kvcache request is sent, thus no request
@@ -1073,7 +1126,10 @@ def run_v2_transceiver_mp(
     [(c[0], c[1], c[2], c[3], c[4], c[5], c[6]) for c in MP_TEST_CONFIGS],
     ids=[c[7] for c in MP_TEST_CONFIGS],
 )
-@pytest.mark.parametrize("workflow", ["ctx_first", "gen_first1", "gen_first2"])
+@pytest.mark.parametrize(
+    "workflow",
+    ["ctx_first", "ctx_first_sync", "gen_first1", "gen_first2"],
+)
 def test_v2_transceiver_mp(
     ctx_tp, ctx_pp, gen_tp, gen_pp, ctx_enable_dp, gen_enable_dp, is_mla, workflow
 ):