refactor: redesign wrapper for NPU fused_layernorm operator.

yingxudeng · yingxudeng · commit 28e6e796e502 · 2025-12-05T23:11:26.000+08:00
diff --git a/xllm/core/kernels/ops_api.cpp b/xllm/core/kernels/ops_api.cpp
@@ -229,14 +229,8 @@ void fused_layernorm(FusedLayerNormParams& params) {
                        params.dynamic_quant);
 #elif defined(USE_CUDA)
   cuda::rmsnorm(params.output, params.input, params.weight, params.eps);
-#else
-  LOG(FATAL) << "fused_layernorm not implemented";
-#endif
-}
-
-torch::Tensor fused_layernorm_tensor(FusedLayerNormParams& params) {
-#if defined(USE_NPU)
-  return npu::fused_layernorm(
+#elif defined(USE_NPU)
+  params.output = npu::fused_layernorm(
       params.input, params.weight, params.eps, params.mode);
 #else
   LOG(FATAL) << "fused_layernorm not implemented";
diff --git a/xllm/core/kernels/ops_api.h b/xllm/core/kernels/ops_api.h
@@ -36,8 +36,6 @@ void batch_decode(AttentionParams& params);
 
 void fused_layernorm(FusedLayerNormParams& params);
 
-torch::Tensor fused_layernorm_tensor(FusedLayerNormParams& params);
-
 torch::Tensor matmul(MatmulParams& params);
 
 torch::Tensor fused_moe(FusedMoEParams& params);
diff --git a/xllm/core/layers/common/fuse_norm.cpp b/xllm/core/layers/common/fuse_norm.cpp
@@ -35,7 +35,11 @@ FusedRMSNormImpl::FusedRMSNormImpl(int64_t dim,
 }
 
 torch::Tensor FusedRMSNormImpl::forward(torch::Tensor& input) {
+#if defined(USE_NPU)
+  torch::Tensor output;
+#else
   auto output = torch::empty_like(input);
+#endif
   return forward_output(input, output);
 }
 

Original file line number	Diff line number	Diff line change
`@@ -35,7 +35,11 @@ FusedRMSNormImpl::FusedRMSNormImpl(int64_t dim,`
`35`	`35`	`}`
`36`	`36`
`37`	`37`	`torch::Tensor FusedRMSNormImpl::forward(torch::Tensor& input) {`
	`38`	`+#if defined(USE_NPU)`
	`39`	`+ torch::Tensor output;`
	`40`	`+#else`
`38`	`41`	`auto output = torch::empty_like(input);`
	`42`	`+#endif`
`39`	`43`	`return forward_output(input, output);`
`40`	`44`	`}`
`41`	`45`