fix: modify baichuan m1 model config (#40)

11zhouxuan · web-flow · commit 232f60128b43 · 2025-02-26T21:54:56.000+08:00
* Remove forced checking of aws environment during local deployment

* fix bug in baichuan m1 model

* modify deploy_time_test
diff --git a/src/emd/models/engines.py b/src/emd/models/engines.py
@@ -9,12 +9,15 @@ class OpenAICompitableEngine(Engine):
     default_cli_args: str = ""
     custom_gpu_num: Union[int,None] = None
 
+
 class VllmEngine(OpenAICompitableEngine):
     pass
 
+
 class LMdeployEngine(OpenAICompitableEngine):
     pass
 
+
 class TgiEngine(OpenAICompitableEngine):
     support_inf2_instance:bool = True
     compile_to_neuron:bool = False
@@ -286,13 +289,14 @@ class ComfyuiEngine(Engine):
 )
 
 
-vllm_baichuan_engine071 = VllmEngine(**{
+vllm_M1_14B_engine066 = VllmEngine(**{
             "engine_type":EngineType.VLLM,
             "engine_dockerfile_config": {"VERSION":"v0.6.6-baichuan-m1"},
             "engine_cls":"vllm.vllm_backend.VLLMBackend",
             "base_image_host":"public.ecr.aws",
             "use_public_ecr":True,
             "docker_login_region":"us-east-1",
+            "custom_gpu_num":2,
             "default_cli_args": " --disable-log-stats --trust-remote-code"
 })
 
@@ -351,16 +355,6 @@ class ComfyuiEngine(Engine):
 })
 
 
-# huggingface_llm_engine_4d47d0 = HuggingFaceLLMEngine(**{
-#             "engine_type":EngineType.HUGGINGFACE,
-#             "engine_cls":"huggingface.llm.transformer_llm_backend.TransformerLLMBackend",
-#             "python_name":"python3",
-#             "base_image_host":"public.ecr.aws",
-#             "use_public_ecr":True,
-#             "docker_login_region":"us-east-1",
-#             "engine_dockerfile_config": {"VERSION":"4.47.0"},
-# })
-
 comfyui_engine = ComfyuiEngine(**{
             "engine_type":EngineType.COMFYUI,
             "engine_cls":"comfyui.comfyui_backend.ComfyUIBackend",
diff --git a/src/emd/models/llms/baichuan.py b/src/emd/models/llms/baichuan.py
@@ -1,7 +1,7 @@
 from .. import Model
 from ..engines import (
     huggingface_baichuan_engine_4d41d2,
-    vllm_baichuan_engine071
+    vllm_M1_14B_engine066
 )
 from ..services import (
     sagemaker_service,
@@ -31,7 +31,7 @@
 Model.register(
     dict(
         model_id = "Baichuan-M1-14B-Instruct",
-        supported_engines=[vllm_baichuan_engine071,huggingface_baichuan_engine_4d41d2],
+        supported_engines=[vllm_M1_14B_engine066,huggingface_baichuan_engine_4d41d2],
         supported_instances=[
             g5d12xlarge_instance,
             g5d24xlarge_instance,
@@ -47,7 +47,7 @@
         supported_frameworks=[
             fastapi_framework
         ],
-        allow_china_region=False,
+        allow_china_region=True,
         huggingface_model_id="baichuan-inc/Baichuan-M1-14B-Instruct",
         # modelscope_model_id="Qwen/QwQ-32B-Preview",
         require_huggingface_token=False,
diff --git a/src/pipeline/deploy/prepare_model.py b/src/pipeline/deploy/prepare_model.py
@@ -135,6 +135,7 @@ def run(model:Model):#, model_s3_bucket, backend_type, service_type, region,args
     service_type = model.executable_config.current_service.service_type
     engine_type = model.executable_config.current_engine.engine_type
     model_s3_bucket = model.executable_config.model_s3_bucket
+    logger.info(f"need_prepare_model: {need_prepare_model}, model_files_s3_path: {model_files_s3_path}, service_type: {service_type}, engine_type: {engine_type}, model_s3_bucket: {model_s3_bucket}")
     # if  args.service_type == ServiceType.LOCAL or (args.model.need_prepare_model and not args.skip_prepare_model):
     if service_type == ServiceType.LOCAL or (need_prepare_model and model_files_s3_path is None):
         if engine_type == EngineType.OLLAMA:
diff --git a/src/pipeline/requirements.txt b/src/pipeline/requirements.txt
@@ -6,6 +6,7 @@
 
 boto3
 huggingface_hub
+hf_transfer
 openai
 jinja2
 modelscope
diff --git a/tests/batch_deploy_test.py b/tests/batch_deploy_test.py
@@ -4,7 +4,7 @@
 from emd.models.utils.constants import ModelType
 import traceback
 from emd.utils.logger_utils import get_logger
-
+import time
 
 logger = get_logger(__name__)
 
@@ -15,6 +15,8 @@ class DeployConfig(BaseModel):
     service_type:str
     framework_type:str
     model_tag:str
+    extra_params: dict
+
 
 
 class InvokeConfig(BaseModel):
@@ -26,6 +28,7 @@ class Task(BaseModel):
     invoke_config: InvokeConfig
 
 
+
 def deploy(task:Task):
     model_id = task.deploy_config.model_id
     print("=="*50 + f"deploy: {model_id}" + "=="*50)
@@ -35,7 +38,8 @@ def deploy(task:Task):
         engine_type=task.deploy_config.engine_type,
         service_type=task.deploy_config.service_type,
         framework_type=task.deploy_config.framework_type,
-        model_tag=task.deploy_config.model_tag
+        model_tag=task.deploy_config.model_tag,
+        extra_params=task.deploy_config.extra_params
     )
 
 def invoke(task:Task):
@@ -87,16 +91,28 @@ def destroy(task:Task):
     )
 
 def test_one_task(task:Task):
+    print(f"task: \n{task.model_dump()}")
     model_id = task.deploy_config.model_id
     ret = {
         "code":0,
         "task":task,
-        "error":0
+        "error":"",
+        "deploy_time":None,
+        "invoke_time":None,
+        "destroy_time":None
     }
     try:
+        t0 = time.time()
         deploy(task)
+        t1 = time.time()
+        ret['deploy_time'] = t1-t0
         invoke(task)
+        t2 = time.time()
+        ret['invoke_time'] = t2-t1
         destroy(task)
+        t3 = time.time()
+        ret['destroy_time'] = t3-t2
+
         logger.info(f"task: {model_id} success")
     except Exception as e:
         error = traceback.format_exc()
@@ -109,7 +125,18 @@ def test_one_task(task:Task):
             error = traceback.format_exc()
             logger.error(f"task: {model_id} destroy failed:\n{error}")
 
-
+    result = f"""\
+<deploy_test_result>
+<model_id>{model_id}</model_id>
+<test_code>{ret['code']}</test_code>
+<test_error>{ret['error']}</test_error>
+<deploy_time>{ret['deploy_time']}</deploy_time>
+<invoke_time>{ret['invoke_time']}</invoke_time>
+<destroy_time>{ret['destroy_time']}</destroy_time>
+</deploy_test_result>
+"""
+    logger.info(f"task: {model_id} test result:\n{result}")
+    ret['summary'] = result
     return ret
 
 
@@ -178,7 +205,17 @@ def test_one_task(task:Task):
     for ret in test_ret:
         task = ret['task']
         model_id = task.deploy_config.model_id
-        print(f"model_id: {model_id}\ntest code:{ret['code']}\nerror:{ret['error']}")
+        result = f"""\
+<deploy_test_result>
+<model_id>{model_id}</model_id>
+<test_code>{ret['code']}</test_code>
+<test_error>{ret['error']}</test_error>
+<deploy_time>{ret['deploy_time']}</deploy_time>
+<invoke_time>{ret['invoke_time']}</invoke_time>
+<destroy_time>{ret['destroy_time']}</destroy_time>
+</deploy_test_result>
+"""
+        # print(f"<model_id: {model_id}\ntest code:{ret['code']}\nerror:{ret['error']}")
         print("=="*50)
 
     if all([ret['code'] == 0 for ret in test_ret]):
diff --git a/tests/deploy_time_test.py b/tests/deploy_time_test.py