fix 'Namespace' object has no attribute 'num_tokens_per_iter' when serving by gradio (#3647)

lvhan028 · web-flow · commit b3b4372b05af · 2025-06-17T14:48:20.000+08:00
diff --git a/lmdeploy/cli/serve.py b/lmdeploy/cli/serve.py
@@ -62,6 +62,7 @@ def add_parser_gradio():
         cache_block_seq_len_act = ArgumentHelper.cache_block_seq_len(pt_group)
         prefix_caching_act = ArgumentHelper.enable_prefix_caching(pt_group)
         max_prefill_token_num_act = ArgumentHelper.max_prefill_token_num(pt_group)
+        model_format_act = ArgumentHelper.model_format(pt_group)
         # turbomind args
         tb_group = parser.add_argument_group('TurboMind engine arguments')
         # common engine args
@@ -73,7 +74,8 @@ def add_parser_gradio():
         tb_group._group_actions.append(cache_block_seq_len_act)
         tb_group._group_actions.append(prefix_caching_act)
         tb_group._group_actions.append(max_prefill_token_num_act)
-        ArgumentHelper.model_format(tb_group)
+        tb_group._group_actions.append(model_format_act)
+
         ArgumentHelper.quant_policy(tb_group)
         ArgumentHelper.rope_scaling_factor(tb_group)
         ArgumentHelper.communicator(tb_group)
@@ -289,8 +291,6 @@ def gradio(args):
                                                    cache_block_seq_len=args.cache_block_seq_len,
                                                    enable_prefix_caching=args.enable_prefix_caching,
                                                    max_prefill_token_num=args.max_prefill_token_num,
-                                                   num_tokens_per_iter=args.num_tokens_per_iter,
-                                                   max_prefill_iters=args.max_prefill_iters,
                                                    communicator=args.communicator)
         chat_template_config = get_chat_template(args.chat_template)
         run(args.model_path_or_server,