From 1c7bdad00c26decabceaf1983d75bb44ac6c46eb Mon Sep 17 00:00:00 2001
From: lizhenyun01 <1500424927@qq.com>
Date: Mon, 22 Sep 2025 16:17:31 +0800
Subject: [PATCH 1/3] optimizer clean deepep buffer

---
 .../model_executor/layers/moe/fused_moe_backend_base.py       | 4 +---
 1 file changed, 1 insertion(+), 3 deletions(-)

diff --git a/fastdeploy/model_executor/layers/moe/fused_moe_backend_base.py b/fastdeploy/model_executor/layers/moe/fused_moe_backend_base.py
index 30794f8ff3..eef0258333 100644
--- a/fastdeploy/model_executor/layers/moe/fused_moe_backend_base.py
+++ b/fastdeploy/model_executor/layers/moe/fused_moe_backend_base.py
@@ -161,11 +161,9 @@ def apply(
         """
         if layer.ep_size > 1:
             if layer.fd_config.parallel_config.moe_phase.phase == "prefill":
-                if layer.fd_config.parallel_config.splitwise_role == "mixed":
-                    self.ep_prefill_runner.clean_low_latency_buffer()
                 return self.apply_ep_prefill(layer, x, gate)
             else:
-                if layer.fd_config.parallel_config.splitwise_role == "mixed":
+                if layer.layer_idx == 0:
                     self.ep_decoder_runner.clean_low_latency_buffer()
                 return self.apply_ep_decode(layer, x, gate)
         else:

From b3f1a1beeeb9f5f8deb774abb5d3364f53786a1b Mon Sep 17 00:00:00 2001
From: lizhenyun01 <1500424927@qq.com>
Date: Thu, 25 Sep 2025 22:23:20 +0800
Subject: [PATCH 2/3] fix deepep bug in mix

---
 fastdeploy/model_executor/layers/moe/fused_moe_backend_base.py | 2 ++
 1 file changed, 2 insertions(+)

diff --git a/fastdeploy/model_executor/layers/moe/fused_moe_backend_base.py b/fastdeploy/model_executor/layers/moe/fused_moe_backend_base.py
index eef0258333..57f5df71c6 100644
--- a/fastdeploy/model_executor/layers/moe/fused_moe_backend_base.py
+++ b/fastdeploy/model_executor/layers/moe/fused_moe_backend_base.py
@@ -161,6 +161,8 @@ def apply(
         """
         if layer.ep_size > 1:
             if layer.fd_config.parallel_config.moe_phase.phase == "prefill":
+                if layer.layer_idx == 0:
+                    self.ep_prefill_runner.clean_low_latency_buffer()
                 return self.apply_ep_prefill(layer, x, gate)
             else:
                 if layer.layer_idx == 0:

From b8b816e588dacaebcca602bf7a674ff23dc91b7e Mon Sep 17 00:00:00 2001
From: lizhenyun01 <1500424927@qq.com>
Date: Thu, 25 Sep 2025 23:01:56 +0800
Subject: [PATCH 3/3] fix CI

---
 .../graph_optimization/cudagraph_piecewise_backend.py       | 6 ++++--
 1 file changed, 4 insertions(+), 2 deletions(-)

diff --git a/fastdeploy/model_executor/graph_optimization/cudagraph_piecewise_backend.py b/fastdeploy/model_executor/graph_optimization/cudagraph_piecewise_backend.py
index 79ff9ea0e1..d3e315a95c 100644
--- a/fastdeploy/model_executor/graph_optimization/cudagraph_piecewise_backend.py
+++ b/fastdeploy/model_executor/graph_optimization/cudagraph_piecewise_backend.py
@@ -20,7 +20,6 @@
 
 import paddle.jit.dy2static.utils as jit_utils
 import paddle.nn.layer
-from paddle.base.core import CUDAGraph
 from paddle.device.cuda import graphs
 
 from fastdeploy import envs
@@ -93,7 +92,10 @@ def __init__(self, fd_config: FDConfig, runnable: Callable):
         self.warm_up_size = fd_config.graph_opt_config.cudagraph_num_of_warmups
         self.real_shape_to_captured_size = fd_config.graph_opt_config.real_shape_to_captured_size
         if self.fd_config.graph_opt_config.use_unique_memory_pool:
-            self.unique_memory_pool_id = CUDAGraph.gen_new_memory_pool_id()
+            if paddle.is_compiled_with_cuda():
+                from paddle.base.core import CUDAGraph
+
+                self.unique_memory_pool_id = CUDAGraph.gen_new_memory_pool_id()
         self._create_entry_dict()
 
         self.cuda_graph_manager = None