Fix MoE MLP related issues (ref vllm-project#4490)

tanqingshan (A) · tanqingshan (A) · commit 7334950c0ce8 · 2025-12-05T14:50:32.000+08:00
diff --git a/vllm_ascend/ops/fused_moe/moe_mlp.py b/vllm_ascend/ops/fused_moe/moe_mlp.py
@@ -127,14 +127,17 @@ def quant_apply_mlp(hidden_states: torch.Tensor,
             if quantized_hidden_states is not None:
                 dispose_tensor(quantized_hidden_states)
             # act_fn: swiglu
+            group_diff = torch.diff(group_list, dim=0)
+            new_group = torch.cat([group_list[0].unsqueeze(0), group_diff],
+                                  dim=0)
             hidden_states, swiglu_out_scale = torch_npu.npu_dequant_swiglu_quant(
                 x=hidden_states,
                 weight_scale=w1_scale,
                 activation_scale=pertoken_scale,
                 bias=None,
                 quant_scale=None,
                 quant_offset=None,
-                group_index=group_list,
+                group_index=new_group,
                 activate_left=True,
                 quant_mode=1,
             )
@@ -295,4 +298,4 @@ def unified_apply_mlp(hidden_states: torch.Tensor,
                                  group_list=group_list,
                                  group_list_type=group_list_type,
                                  topk_scales=topk_scales,
-                                 need_trans=need_trans)
+                                 need_trans=need_trans)