vllm-project
diff --git a/‎benchmarks/benchmark_block_pool.py‎
Lines changed: 1 addition & 1 deletion b/‎benchmarks/benchmark_block_pool.py‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎benchmarks/benchmark_long_document_qa_throughput.py‎
Lines changed: 1 addition & 1 deletion b/‎benchmarks/benchmark_long_document_qa_throughput.py‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎benchmarks/benchmark_ngram_proposer.py‎
Lines changed: 1 addition & 1 deletion b/‎benchmarks/benchmark_ngram_proposer.py‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎benchmarks/benchmark_prefix_caching.py‎
Lines changed: 1 addition & 1 deletion b/‎benchmarks/benchmark_prefix_caching.py‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎benchmarks/benchmark_prioritization.py‎
Lines changed: 1 addition & 1 deletion b/‎benchmarks/benchmark_prioritization.py‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎benchmarks/benchmark_serving_structured_output.py‎
Lines changed: 1 addition & 1 deletion b/‎benchmarks/benchmark_serving_structured_output.py‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎benchmarks/cutlass_benchmarks/sparse_benchmarks.py‎
Lines changed: 1 addition & 1 deletion b/‎benchmarks/cutlass_benchmarks/sparse_benchmarks.py‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎benchmarks/cutlass_benchmarks/w8a8_benchmarks.py‎
Lines changed: 2 additions & 1 deletion b/‎benchmarks/cutlass_benchmarks/w8a8_benchmarks.py‎
Lines changed: 2 additions & 1 deletion
diff --git a/‎benchmarks/kernels/bench_per_token_quant_fp8.py‎
Lines changed: 1 addition & 1 deletion b/‎benchmarks/kernels/bench_per_token_quant_fp8.py‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎benchmarks/kernels/benchmark_activation.py‎
Lines changed: 1 addition & 1 deletion b/‎benchmarks/kernels/benchmark_activation.py‎
Lines changed: 1 addition & 1 deletion
@@ -5,7 +5,7 @@
 from benchmark_utils import TimeCollector
 from tabulate import tabulate
 
-from vllm.utils import FlexibleArgumentParser
+from vllm.utils.argparse_utils import FlexibleArgumentParser
 from vllm.v1.core.block_pool import BlockPool
 
 
 
@@ -46,7 +46,7 @@
 
 from vllm import LLM, SamplingParams
 from vllm.engine.arg_utils import EngineArgs
-from vllm.utils import FlexibleArgumentParser
+from vllm.utils.argparse_utils import FlexibleArgumentParser
 
 
 def test_long_document_qa(llm=None, sampling_params=None, prompts=None):
 
@@ -19,7 +19,7 @@
     VllmConfig,
 )
 from vllm.platforms import current_platform
-from vllm.utils import FlexibleArgumentParser
+from vllm.utils.argparse_utils import FlexibleArgumentParser
 from vllm.v1.spec_decode.ngram_proposer import NgramProposer
 from vllm.v1.worker.gpu_input_batch import InputBatch
 from vllm.v1.worker.gpu_model_runner import GPUModelRunner
 
@@ -37,7 +37,7 @@
 
 from vllm import LLM, SamplingParams
 from vllm.engine.arg_utils import EngineArgs
-from vllm.utils import FlexibleArgumentParser
+from vllm.utils.argparse_utils import FlexibleArgumentParser
 
 try:
     from vllm.transformers_utils.tokenizer import get_tokenizer
 
@@ -11,7 +11,7 @@
 from transformers import AutoTokenizer, PreTrainedTokenizerBase
 
 from vllm.engine.arg_utils import EngineArgs
-from vllm.utils import FlexibleArgumentParser
+from vllm.utils.argparse_utils import FlexibleArgumentParser
 
 
 # Select a equi-probable random priority
 
@@ -51,7 +51,7 @@
     from backend_request_func import get_tokenizer
 
 try:
-    from vllm.utils import FlexibleArgumentParser
+    from vllm.utils.argparse_utils import FlexibleArgumentParser
 except ImportError:
     from argparse import ArgumentParser as FlexibleArgumentParser
 
 
@@ -15,7 +15,7 @@
 from weight_shapes import WEIGHT_SHAPES
 
 from vllm import _custom_ops as ops
-from vllm.utils import FlexibleArgumentParser
+from vllm.utils.argparse_utils import FlexibleArgumentParser
 
 DEFAULT_MODELS = list(WEIGHT_SHAPES.keys())
 DEFAULT_BATCH_SIZES = [1, 16, 32, 64, 128, 256, 512]
 
@@ -18,7 +18,8 @@
 from vllm.model_executor.layers.quantization.utils.fp8_utils import (
     w8a8_triton_block_scaled_mm,
 )
-from vllm.utils import FlexibleArgumentParser, cdiv
+from vllm.utils.argparse_utils import FlexibleArgumentParser
+from vllm.utils.math_utils import cdiv
 
 DEFAULT_MODELS = list(WEIGHT_SHAPES.keys())
 DEFAULT_BATCH_SIZES = [1, 16, 32, 64, 128, 256, 512]
 
@@ -10,7 +10,7 @@
 from vllm.model_executor.layers.quantization.input_quant_fp8 import QuantFP8
 from vllm.model_executor.layers.quantization.utils.quant_utils import GroupShape
 from vllm.triton_utils import triton
-from vllm.utils import FlexibleArgumentParser
+from vllm.utils.argparse_utils import FlexibleArgumentParser
 from vllm.utils.torch_utils import STR_DTYPE_TO_TORCH_DTYPE
 
 
 
@@ -10,7 +10,7 @@
 from vllm.model_executor.custom_op import CustomOp
 from vllm.platforms import current_platform
 from vllm.triton_utils import triton
-from vllm.utils import FlexibleArgumentParser
+from vllm.utils.argparse_utils import FlexibleArgumentParser
 from vllm.utils.torch_utils import STR_DTYPE_TO_TORCH_DTYPE
 
 batch_size_range = [1, 16, 32, 64, 128]
Original file line number	Diff line number	Diff line change
`@@ -19,7 +19,7 @@`
`19`	`19`	`VllmConfig,`
`20`	`20`	`)`
`21`	`21`	`from vllm.platforms import current_platform`
`22`		`-from vllm.utils import FlexibleArgumentParser`
	`22`	`+from vllm.utils.argparse_utils import FlexibleArgumentParser`
`23`	`23`	`from vllm.v1.spec_decode.ngram_proposer import NgramProposer`
`24`	`24`	`from vllm.v1.worker.gpu_input_batch import InputBatch`
`25`	`25`	`from vllm.v1.worker.gpu_model_runner import GPUModelRunner`
Original file line number	Diff line number	Diff line change
`@@ -18,7 +18,8 @@`
`18`	`18`	`from vllm.model_executor.layers.quantization.utils.fp8_utils import (`
`19`	`19`	`w8a8_triton_block_scaled_mm,`
`20`	`20`	`)`
`21`		`-from vllm.utils import FlexibleArgumentParser, cdiv`
	`21`	`+from vllm.utils.argparse_utils import FlexibleArgumentParser`
	`22`	`+from vllm.utils.math_utils import cdiv`
`22`	`23`
`23`	`24`	`DEFAULT_MODELS = list(WEIGHT_SHAPES.keys())`
`24`	`25`	`DEFAULT_BATCH_SIZES = [1, 16, 32, 64, 128, 256, 512]`