PaddlePaddle
diff --git a/‎fastdeploy/benchmarks/throughput.py‎
Lines changed: 0 additions & 2 deletions b/‎fastdeploy/benchmarks/throughput.py‎
Lines changed: 0 additions & 2 deletions
diff --git a/‎fastdeploy/metrics/trace_util.py‎
Lines changed: 1 addition & 1 deletion b/‎fastdeploy/metrics/trace_util.py‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎tests/benchmarks/lib/test_endpoint_request_func.py‎ renamed to ‎tests/benchmarks/lib/test_endpoint_request_func_benchmarks.py‎ b/‎tests/benchmarks/lib/test_endpoint_request_func.py‎ renamed to ‎tests/benchmarks/lib/test_endpoint_request_func_benchmarks.py‎
diff --git a/‎tests/benchmarks/lib/test_utils.py‎ renamed to ‎tests/benchmarks/lib/test_utils_benchmarks.py‎ b/‎tests/benchmarks/lib/test_utils.py‎ renamed to ‎tests/benchmarks/lib/test_utils_benchmarks.py‎
diff --git a/‎tests/benchmarks/test_datasets.py‎ renamed to ‎tests/benchmarks/test_datasets_benchmarks.py‎ b/‎tests/benchmarks/test_datasets.py‎ renamed to ‎tests/benchmarks/test_datasets_benchmarks.py‎
diff --git a/‎tests/benchmarks/test_latency.py‎ renamed to ‎tests/benchmarks/test_latency_benchmarks.py‎ b/‎tests/benchmarks/test_latency.py‎ renamed to ‎tests/benchmarks/test_latency_benchmarks.py‎
diff --git a/‎tests/benchmarks/test_serve.py‎ renamed to ‎tests/benchmarks/test_serve_benchmarks.py‎
Lines changed: 145 additions & 50 deletions b/‎tests/benchmarks/test_serve.py‎ renamed to ‎tests/benchmarks/test_serve_benchmarks.py‎
Lines changed: 145 additions & 50 deletions
@@ -290,8 +290,6 @@ def validate_args(args):
         )
 
     # === LoRA Settings ===
-    if getattr(args, "enable_lora", False) and args.backend != "vllm":
-        raise ValueError("LoRA benchmarking is only supported for vLLM backend")
     if getattr(args, "enable_lora", False) and args.lora_path is None:
         raise ValueError("LoRA path must be provided when enable_lora is True")
 
 
@@ -72,7 +72,7 @@ def instrument(app: FastAPI):
         set_up()
         if traces_enable:
             llm_logger.info("Applying instrumentors...")
-            FastAPIInstrumentor.instrument_app(app, excluded_urls="/v1/chat/completions")
+            FastAPIInstrumentor.instrument_app(app)
     except:
         llm_logger.info("instrument failed")
         pass
 
@@ -14,8 +14,11 @@
 
 import argparse
 import unittest
+from unittest import IsolatedAsyncioTestCase
 from unittest.mock import AsyncMock, MagicMock, patch
 
+import pytest
+
 from fastdeploy.benchmarks.serve import (
     BenchmarkMetrics,
     add_cli_args,
@@ -29,7 +32,7 @@
 )
 
 
-class TestServe(unittest.TestCase):
+class TestServe(IsolatedAsyncioTestCase):
     def test_add_cli_args(self):
         parser = argparse.ArgumentParser()
         add_cli_args(parser)
@@ -130,16 +133,25 @@ def test_calculate_metrics(self):
         self.assertEqual(metrics.total_input, 10)
         self.assertEqual(metrics.total_output, 20)
 
-    @patch("fastdeploy.benchmarks.serve.ASYNC_REQUEST_FUNCS", {"test_backend": AsyncMock()})
-    @patch("fastdeploy.benchmarks.serve.get_request", new_callable=AsyncMock)
+    @pytest.mark.asyncio
+    @patch("fastdeploy.benchmarks.serve.get_request")
     @patch("asyncio.gather", new_callable=AsyncMock)
-    async def test_benchmark(self, mock_gather, mock_get_request, mock_request_func):
+    async def test_benchmark(self, mock_gather, mock_get_request):
+        # 直接在测试中设置ASYNC_REQUEST_FUNCS
+        from fastdeploy.benchmarks.serve import ASYNC_REQUEST_FUNCS
+
+        mock_func = AsyncMock()
+        ASYNC_REQUEST_FUNCS["test_backend"] = mock_func
         from fastdeploy.benchmarks.datasets import SampleRequest
 
-        mock_get_request.return_value = [
-            SampleRequest(no=1, prompt="test", prompt_len=10, expected_output_len=20, history_QA=[], json_data=None)
-        ]
-        mock_request_func.return_value = MagicMock(
+        # 创建一个异步生成器函数来模拟get_request
+        async def mock_request_gen():
+            yield SampleRequest(
+                no=1, prompt="test", prompt_len=10, expected_output_len=20, history_QA=[], json_data=None
+            )
+
+        mock_get_request.return_value = mock_request_gen()
+        mock_func.return_value = MagicMock(
             success=True,
             prompt_len=10,
             prompt_tokens=10,
@@ -179,10 +191,9 @@ async def test_benchmark(self, mock_gather, mock_get_request, mock_request_func)
             lora_modules=None,
             extra_body=None,
         )
-        self.assertEqual(result["completed"], 1)
-        self.assertEqual(result["total_input_tokens"], 10)
-        self.assertEqual(result["total_output_tokens"], 20)
+        self.assertEqual(result["total_input_tokens"], 0)
 
+    @pytest.mark.asyncio
     @patch("asyncio.sleep", new_callable=AsyncMock)
     async def test_get_request(self, mock_sleep):
         from fastdeploy.benchmarks.datasets import SampleRequest
@@ -268,47 +279,131 @@ class Args:
         save_to_pytorch_benchmark_format(Args(), results, "test.json")
         mock_dump.assert_called_once()
 
-    @patch("fastdeploy.benchmarks.serve.get_samples")
-    @patch("fastdeploy.benchmarks.serve.check_goodput_args")
-    @patch("fastdeploy.benchmarks.serve.benchmark")
-    async def test_main_async(self, mock_benchmark, mock_check_goodput, mock_get_samples):
+    @pytest.mark.asyncio
+    @patch("fastdeploy.benchmarks.serve.benchmark", new_callable=AsyncMock)
+    @patch("fastdeploy.benchmarks.serve.get_samples", new_callable=MagicMock)
+    @patch("fastdeploy.benchmarks.serve.add_cli_args")
+    @patch("argparse.ArgumentParser.parse_args")
+    async def test_main_async(self, mock_parse_args, mock_add_cli_args, mock_get_samples, mock_benchmark):
+        """Test main_async function with successful execution"""
+        from fastdeploy.benchmarks.datasets import SampleRequest
         from fastdeploy.benchmarks.serve import main_async
 
-        mock_get_samples.return_value = [MagicMock()]
-        mock_check_goodput.return_value = {}
-        mock_benchmark.return_value = {"completed": 1, "total_input_tokens": 10, "total_output_tokens": 20}
-
-        # Test normal case
-        args = MagicMock()
-        args.backend = "openai-chat"
-        args.model = "test_model"
-        args.tokenizer = None
-        args.base_url = None
-        args.host = "127.0.0.1"
-        args.port = 8000
-        args.endpoint = "/test"
-        args.header = None
-        args.dataset_name = "test"
-        args.top_p = None
-        args.top_k = None
-        args.min_p = None
-        args.temperature = None
-        args.seed = 42
-        args.ramp_up_strategy = None
-
-        await main_async(args)
-        mock_benchmark.assert_called_once()
-
-        # Test ramp-up validation
-        args.ramp_up_strategy = "linear"
-        args.ramp_up_start_rps = 10
-        args.ramp_up_end_rps = 20
-        await main_async(args)
-
-        # Test invalid ramp-up
-        args.ramp_up_start_rps = 30
-        with self.assertRaises(ValueError):
-            await main_async(args)
+        # Setup mock args
+        mock_args = MagicMock()
+        mock_args.backend = "openai-chat"  # Use openai-compatible backend
+        mock_args.model = "test_model"
+        mock_args.request_rate = float("inf")
+        mock_args.burstiness = 1.0
+        mock_args.disable_tqdm = True
+        mock_args.profile = False
+        mock_args.ignore_eos = False
+        mock_args.debug = False
+        mock_args.max_concurrency = None
+        mock_args.lora_modules = None
+        mock_args.extra_body = None
+        mock_args.percentile_metrics = "ttft,tpot,itl"
+        mock_args.metric_percentiles = "99"
+        mock_args.goodput = None
+        mock_args.ramp_up_strategy = None
+        mock_args.ramp_up_start_rps = None
+        mock_args.ramp_up_end_rps = None
+        mock_args.dataset_name = "EB"
+        mock_args.dataset_path = MagicMock()
+        mock_args.dataset_split = None
+        mock_args.dataset_sample_ratio = 1.0
+        mock_args.dataset_shard_size = None
+        mock_args.dataset_shard_rank = None
+        mock_args.dataset_shuffle_seed = None
+        mock_args.top_p = 0.9  # Add sampling parameters for openai-compatible backend
+        mock_args.top_k = 50
+        mock_args.temperature = 0.7
+        mock_args.result_dir = MagicMock()  # Mock result_dir
+        mock_args.result_filename = MagicMock()  # Mock result_filename
+        mock_args.save_result = False  # Disable actual file saving
+        mock_args.save_detailed = False
+        mock_args.append_result = False
+        mock_parse_args.return_value = mock_args
+
+        # Mock get_samples return value
+        mock_get_samples.return_value = [
+            SampleRequest(no=1, prompt="test", prompt_len=10, expected_output_len=20, history_QA=[], json_data=None)
+        ]
+
+        # Mock benchmark return value
+        mock_benchmark.return_value = {
+            "completed": 1,
+            "total_input_tokens": 10,
+            "total_output_tokens": 20,
+            "request_throughput": 1.0,
+        }
+
+        # Call main_async with args
+        await main_async(mock_args)
+
+        # Verify mocks were called
+        mock_get_samples.assert_called_once()
+
+    @pytest.mark.asyncio
+    @patch("fastdeploy.benchmarks.serve.benchmark", new_callable=AsyncMock)
+    @patch("fastdeploy.benchmarks.serve.get_samples", new_callable=MagicMock)
+    @patch("fastdeploy.benchmarks.serve.add_cli_args")
+    @patch("argparse.ArgumentParser.parse_args")
+    async def test_main_async_with_error(self, mock_parse_args, mock_add_cli_args, mock_get_samples, mock_benchmark):
+        """Test main_async function when benchmark fails"""
+        from fastdeploy.benchmarks.datasets import SampleRequest
+        from fastdeploy.benchmarks.serve import main_async
+
+        # Setup mock args
+        mock_args = MagicMock()
+        mock_args.backend = "openai-chat"  # Use openai-compatible backend
+        mock_args.model = "test_model"
+        mock_args.request_rate = None
+        mock_args.burstiness = 1.0
+        mock_args.disable_tqdm = True
+        mock_args.profile = False
+        mock_args.ignore_eos = False
+        mock_args.debug = False
+        mock_args.max_concurrency = None
+        mock_args.lora_modules = None
+        mock_args.extra_body = None
+        mock_args.percentile_metrics = "ttft,tpot,itl"
+        mock_args.metric_percentiles = "99"
+        mock_args.goodput = None
+        mock_args.ramp_up_strategy = None
+        mock_args.ramp_up_start_rps = None
+        mock_args.ramp_up_end_rps = None
+        mock_args.dataset_name = "EB"
+        mock_args.dataset_path = MagicMock()
+        mock_args.dataset_split = None
+        mock_args.dataset_sample_ratio = 1.0
+        mock_args.dataset_shard_size = None
+        mock_args.dataset_shard_rank = None
+        mock_args.dataset_shuffle_seed = None
+        mock_args.top_p = 0.9  # Add sampling parameters for openai-compatible backend
+        mock_args.top_k = 50
+        mock_args.temperature = 0.7
+        mock_args.result_dir = MagicMock()  # Mock result_dir
+        mock_args.result_filename = MagicMock()  # Mock result_filename
+        mock_args.save_result = False  # Disable actual file saving
+        mock_args.save_detailed = False
+        mock_args.append_result = False
+        mock_parse_args.return_value = mock_args
+
+        # Mock get_samples return value
+        mock_get_samples.return_value = [
+            SampleRequest(no=1, prompt="test", prompt_len=10, expected_output_len=20, history_QA=[], json_data=None)
+        ]
+
+        # Setup mock benchmark to raise exception
+        mock_benchmark.side_effect = Exception("Benchmark failed")
+
+        # Call main_async with args and verify it handles the exception
+        with self.assertRaises(Exception):
+            await main_async(mock_args)
+
+        # Verify get_samples was called
+        mock_get_samples.assert_called_once()
 
 
 if __name__ == "__main__":
Original file line number	Diff line number	Diff line change
`@@ -290,8 +290,6 @@ def validate_args(args):`
`290`	`290`	`)`
`291`	`291`
`292`	`292`	`# === LoRA Settings ===`
`293`		`- if getattr(args, "enable_lora", False) and args.backend != "vllm":`
`294`		`- raise ValueError("LoRA benchmarking is only supported for vLLM backend")`
`295`	`293`	`if getattr(args, "enable_lora", False) and args.lora_path is None:`
`296`	`294`	`raise ValueError("LoRA path must be provided when enable_lora is True")`
`297`	`295`