bugfix: resolve multi-machine communication domain error.

DongheJin · yq33victor · commit fe6ad67a332f · 2025-12-19T17:30:30.000+08:00
diff --git a/xllm/core/layers/npu/npu_qwen3_decoder_layer_impl.cpp b/xllm/core/layers/npu/npu_qwen3_decoder_layer_impl.cpp
@@ -70,6 +70,7 @@ void Qwen3DecoderLayerImpl::param_from_args(
   param.enableIntraLayerAddNorm = true;
   param.enableInterLayerAddNorm = false;
   param.enablePreFetchWeight = FLAGS_enable_prefetch_weight;
+  initialize_parallel_parameters(param, parallel_args);
   initialize_quantization_parameters(param);
 
   if (isPrefill) {
@@ -89,6 +90,18 @@ void Qwen3DecoderLayerImpl::param_from_args(
   }
 }
 
+void Qwen3DecoderLayerImpl::initialize_parallel_parameters(
+    atb_speed::qwen::QwenLayerParam& param,
+    const ParallelArgs& parallel_args) {
+  param.mapping = parallel_args.mapping();
+  param.tensorParallelInfo = {parallel_args.rank(),
+                              parallel_args.world_size(),
+                              FLAGS_communication_backend,
+                              FLAGS_rank_tablefile,
+                              nullptr,
+                              ""};
+}
+
 void Qwen3DecoderLayerImpl::initialize_quantization_parameters(
     atb_speed::qwen::QwenLayerParam& param) {
   if (quantize_type_.empty()) {
diff --git a/xllm/core/layers/npu/npu_qwen3_decoder_layer_impl.h b/xllm/core/layers/npu/npu_qwen3_decoder_layer_impl.h
@@ -78,6 +78,9 @@ class Qwen3DecoderLayerImpl : public BaseLayer {
                                ModelInputParams& input_params,
                                bool is_prefill);
 
+  void initialize_parallel_parameters(atb_speed::qwen::QwenLayerParam& param,
+                                      const ParallelArgs& parallel_args);
+
   void initialize_quantization_parameters(
       atb_speed::qwen::QwenLayerParam& param);
 
diff --git a/xllm/core/layers/npu/npu_word_embedding_impl.cpp b/xllm/core/layers/npu/npu_word_embedding_impl.cpp
@@ -27,21 +27,28 @@ void WordEmbeddingImpl::param_from_args(
     const xllm::ModelArgs& args,
     const xllm::ParallelArgs& parallel_args) {
   param.unpadInputs = true;
-  if (dp_size_ > 1) {
-    param.tensorParallelInfo.rank = dp_local_tp_rank_;
-    param.tensorParallelInfo.worldSize = dp_local_tp_size_;
-    param.tensorParallelInfo.backend = FLAGS_communication_backend;
-  } else if (parallel_args.world_size() != 1) {
-    // param.tensorParallelInfo = {parallel_args.rank(),
-    // parallel_args.world_size(), "lccl"};
-    param.tensorParallelInfo = {parallel_args.rank(),
-                                parallel_args.world_size(),
-                                FLAGS_communication_backend};
+
+  if (parallel_args.world_size() > 1) {
+    if (parallel_args.mapping_data().empty()) {
+      if (dp_size_ > 1) {
+        param.tensorParallelInfo.rank = dp_local_tp_rank_;
+        param.tensorParallelInfo.worldSize = dp_local_tp_size_;
+      } else {
+        param.tensorParallelInfo.rank = parallel_args.rank();
+        param.tensorParallelInfo.worldSize = parallel_args.world_size();
+      }
+      param.tensorParallelInfo.commDomain = std::to_string(dp_rank_);
+      param.tensorParallelInfo.backend = FLAGS_communication_backend;
+    } else {
+      atb_speed::common::ParallelInfo parallelInfo =
+          parallel_args.mapping().Get(atb_speed::base::ATTN_TP);
+      param.tensorParallelInfo.rank = parallelInfo.rank;
+      param.tensorParallelInfo.worldSize = parallelInfo.rankIds.size();
+      param.tensorParallelInfo.backend = FLAGS_communication_backend;
+      parallelInfo.InitCommDomain(param.tensorParallelInfo.hcommInfo,
+                                  param.tensorParallelInfo.commDomain);
+    }
   }
-  // param.linearParallelParam.tensorParallelInfo.backend =
-  // FLAGS_communication_backend;
-  param.tensorParallelInfo.commDomain = std::to_string(dp_rank_);
-  // param.tensorParallelInfo.rankTableFile = FLAGS_rank_tablefile;
 }
 
 WordEmbeddingImpl::WordEmbeddingImpl(const ModelContext& context)