[Refactor] Refactor to extract model forward logic to allow plug-in to overwrite

zijiansh · zijiansh · commit bdf92b67bcfe · 2025-09-03T16:47:24.000-07:00
Signed-off-by: Zijian Shen &lt;zijiansh@meta.com&gt;
diff --git a/vllm/v1/worker/gpu_model_runner.py b/vllm/v1/worker/gpu_model_runner.py
@@ -1456,7 +1456,7 @@ def _forward(
         self,
         attn_metadata: dict[str, Any],
         num_input_tokens: int,
-        num_tokens_across_dp: int,
+        num_tokens_across_dp: Optional[Any],
         cudagraph_runtime_mode: CUDAGraphMode,
         batch_descriptor: BatchDescriptor,
         scheduler_output: "SchedulerOutput",
@@ -1465,7 +1465,7 @@ def _forward(
         intermediate_tensors: IntermediateTensors,
         inputs_embeds: list[torch.Tensor],
         model_kwargs: dict[str, Any],
-    ) -> Tuple[torch.Tensor, Optional[KVConnectorOutput]]:
+    ) -> tuple[torch.Tensor, Optional[KVConnectorOutput]]:
         with set_forward_context(
             attn_metadata,
             self.vllm_config,