fix for default quant (#3640)

grimoire · web-flow · commit a41e15ee8d37 · 2025-06-12T18:32:00.000+08:00
diff --git a/lmdeploy/pytorch/nn/moe.py b/lmdeploy/pytorch/nn/moe.py
@@ -485,7 +485,7 @@ def weight_loader_with_quant(self, param: torch.nn.Parameter, loaded_weight: tor
             self.weight._base_weight_loader(self.weight, quanted_weight, expert_id, shard_id)
             self.weight_scale_inv.weight_loader(self.weight_scale_inv, scaling, expert_id, shard_id)
         else:
-            return self.weight_loader(param, loaded_weight, expert_id, shard_id)
+            return self.weight._base_weight_loader(param, loaded_weight, expert_id, shard_id)
 
 
 class FusedMoEBlockedF8(nn.Module):