aws-samples
diff --git a/‎docs/en/best_deployment_practices.md‎
Lines changed: 7 additions & 5 deletions b/‎docs/en/best_deployment_practices.md‎
Lines changed: 7 additions & 5 deletions
diff --git a/‎docs/en/supported_models.md‎
Lines changed: 55 additions & 47 deletions b/‎docs/en/supported_models.md‎
Lines changed: 55 additions & 47 deletions
diff --git a/‎src/emd/models/custom/custom_docker.py‎
Lines changed: 2 additions & 1 deletion b/‎src/emd/models/custom/custom_docker.py‎
Lines changed: 2 additions & 1 deletion
diff --git a/‎src/emd/models/embeddings/__init__.py‎
Lines changed: 2 additions & 1 deletion b/‎src/emd/models/embeddings/__init__.py‎
Lines changed: 2 additions & 1 deletion
diff --git a/‎src/emd/models/embeddings/bert_embedding.py‎
Lines changed: 0 additions & 1 deletion b/‎src/emd/models/embeddings/bert_embedding.py‎
Lines changed: 0 additions & 1 deletion
diff --git a/‎src/emd/models/embeddings/jina.py‎
Lines changed: 55 additions & 0 deletions b/‎src/emd/models/embeddings/jina.py‎
Lines changed: 55 additions & 0 deletions
diff --git a/‎src/emd/models/engines.py‎
Lines changed: 21 additions & 0 deletions b/‎src/emd/models/engines.py‎
Lines changed: 21 additions & 0 deletions
diff --git a/‎src/emd/models/llms/__init__.py‎
Lines changed: 2 additions & 1 deletion b/‎src/emd/models/llms/__init__.py‎
Lines changed: 2 additions & 1 deletion
diff --git a/‎src/emd/models/llms/jina.py‎
Lines changed: 76 additions & 0 deletions b/‎src/emd/models/llms/jina.py‎
Lines changed: 76 additions & 0 deletions
diff --git a/‎src/emd/models/model_series.py‎
Lines changed: 6 additions & 0 deletions b/‎src/emd/models/model_series.py‎
Lines changed: 6 additions & 0 deletions
@@ -59,10 +59,12 @@ emd deploy --model-id Qwen2.5-14B-Instruct-AWQ --instance-type g4dn.2xlarge --en
 }'
 ```
 
-## Common Troubleshooting
+## Environmental variables
+- `LOCAL_DEPLOY_PORT: ` Local deployment port, default: `8080`
 
-If your deployment fails due to out-of-memory issues, try:
+## Common Troubleshooting
 
-- Using a larger instance type
-- Reducing max_model_len and max_num_seqs in the engine parameters
-- Setting a lower gpu_memory_utilization value (e.g., 0.8 instead of the default)
+- If your deployment fails due to out-of-memory issues, try:
+  - Using a larger instance type
+  - Reducing max_model_len and max_num_seqs in the engine parameters
+  - Setting a lower gpu_memory_utilization value (e.g., 0.8 instead of the default)
@@ -13,10 +13,11 @@
     local_instance
 )
 from ..engines import custom_engine
+from ..utils.constants import CUSTOM_DOCKER_MODEL_ID
 
 Model.register(
     dict(
-        model_id = "custom-docker",
+        model_id = CUSTOM_DOCKER_MODEL_ID,
         supported_engines=[custom_engine],
         supported_instances=[
             g5dxlarge_instance,
 
@@ -1 +1,2 @@
-from .bert_embedding import *
+from . import bert_embedding
+from . import jina
@@ -20,7 +20,6 @@
 
 
 
-
 Model.register(
     dict(
         model_id = "bce-embedding-base_v1",
 
@@ -0,0 +1,55 @@
+from .. import Model
+from ..engines import huggingface_embedding_engine449
+from ..services import sagemaker_service,local_service,ecs_service
+from ..frameworks import fastapi_framework
+from ..instances import (
+    g4dn2xlarge_instance,
+    g5dxlarge_instance,
+    g5d2xlarge_instance,
+    g5d4xlarge_instance,
+    g5d8xlarge_instance,
+    g5d12xlarge_instance,
+    g5d16xlarge_instance,
+    g5d24xlarge_instance,
+    g5d48xlarge_instance,
+    local_instance
+)
+from emd.models.utils.constants import ModelType
+from emd.models import ModelSeries
+from ..model_series import JINA_SERIES
+
+
+
+Model.register(
+    dict(
+        model_id = "jina-embeddings-v3",
+        supported_engines=[huggingface_embedding_engine449],
+        supported_instances=[
+            # g4dn2xlarge_instance,
+            g5dxlarge_instance,
+            g5d2xlarge_instance,
+            g5d4xlarge_instance,
+            g5d8xlarge_instance,
+            # g5d12xlarge_instance,
+            g5d16xlarge_instance,
+            local_instance,
+            # g5d24xlarge_instance,
+            # g5d48xlarge_instance,
+        ],
+        supported_services=[
+            sagemaker_service,
+            ecs_service,
+            local_service
+        ],
+        supported_frameworks=[
+            fastapi_framework
+        ],
+        allow_china_region=True,
+        huggingface_model_id="jinaai/jina-embeddings-v3",
+        modelscope_model_id="jinaai/jina-embeddings-v3",
+        require_huggingface_token=False,
+        application_scenario="RAG",
+        model_type=ModelType.EMBEDDING,
+        model_series=JINA_SERIES
+    )
+)
@@ -377,6 +377,27 @@ class KtransformersEngine(OpenAICompitableEngine):
             "pretrained_tokenizer_init_kwargs":{"trust_remote_code":True}
 })
 
+huggingface_embedding_engine449 = HuggingFaceLLMEngine(**{
+            "engine_type":EngineType.HUGGINGFACE,
+            "engine_cls":"huggingface.embedding.transformers_embedding_backend.TransformerEmbeddingBackend",
+            "python_name":"python3",
+            "base_image_host":"public.ecr.aws",
+            "use_public_ecr":True,
+            "docker_login_region":"us-east-1",
+            "engine_dockerfile_config": {"VERSION":"4.49.0"},
+            "pretrained_model_init_kwargs":{"trust_remote_code":True,"torch_dtype":"float16"},
+})
+
+huggingface_rerank_engine449 = HuggingFaceLLMEngine(**{
+            "engine_type":EngineType.HUGGINGFACE,
+            "engine_cls":"huggingface.rerank.transformers_rerank_backend.TransformerRerankBackend",
+            "python_name":"python3",
+            "base_image_host":"public.ecr.aws",
+            "use_public_ecr":True,
+            "docker_login_region":"us-east-1",
+            "engine_dockerfile_config": {"VERSION":"4.49.0"},
+            "pretrained_model_init_kwargs":{"trust_remote_code":True,"torch_dtype":"float16"},
+})
 
 comfyui_engine = ComfyuiEngine(**{
             "engine_type":EngineType.COMFYUI,
 
@@ -4,5 +4,6 @@
     qwen,
     llama,
     deepseek,
-    baichuan
+    baichuan,
+    jina
 )
@@ -0,0 +1,76 @@
+from .. import Model
+from ..engines import (
+    vllm_qwen2d5_engine064,
+    vllm_qwen2d5_128k_engine064,
+    huggingface_llm_engine_4d41d2,
+    tgi_qwen2d5_72b_engine064,
+    tgi_qwen2d5_on_inf2,
+    tgi_qwen2d5_72b_on_inf2,
+    vllm_qwen2d5_72b_engine064,
+    vllm_qwq_engine073
+)
+from ..services import (
+    sagemaker_service,
+    sagemaker_async_service,
+    ecs_service,
+    local_service
+)
+from ..frameworks import fastapi_framework
+from ..instances import (
+    g5d2xlarge_instance,
+    g5d4xlarge_instance,
+    g5d8xlarge_instance,
+    g5d12xlarge_instance,
+    g5d16xlarge_instance,
+    g5d24xlarge_instance,
+    g5d48xlarge_instance,
+    g4dn2xlarge_instance,
+    g6e2xlarge_instance,
+    inf2d8xlarge_instance,
+    inf2d24xlarge_instance,
+    local_instance
+)
+from emd.models.utils.constants import ModelType
+from emd.models.utils.constants import ModelType
+from emd.models import ModelSeries
+from ..model_series import JINA_SERIES
+
+
+Model.register(
+    dict(
+        model_id = "ReaderLM-v2",
+        supported_engines=[
+            vllm_qwen2d5_engine064,
+            tgi_qwen2d5_on_inf2
+            ],
+        supported_instances=[
+            g4dn2xlarge_instance,
+            g5d2xlarge_instance,
+            g5d4xlarge_instance,
+            g5d8xlarge_instance,
+            # g5d12xlarge_instance,
+            g5d16xlarge_instance,
+            # g5d24xlarge_instance,
+            # g5d48xlarge_instance,
+            inf2d8xlarge_instance,
+            local_instance
+        ],
+        supported_services=[
+            sagemaker_service,
+            sagemaker_async_service,
+            ecs_service,
+            local_service
+        ],
+        supported_frameworks=[
+            fastapi_framework
+        ],
+        allow_china_region=True,
+        huggingface_model_id="jinaai/ReaderLM-v2",
+        modelscope_model_id="jinaai/ReaderLM-v2",
+        require_huggingface_token=False,
+        application_scenario="Html information extraction",
+        description="ReaderLM-v2 is a 1.5B parameter language model that converts raw HTML into beautifully formatted markdown or JSON with superior accuracy and improved longer context handling. Supporting multiple languages (29 in total), ReaderLM-v2 is specialized for tasks involving HTML parsing, transformation, and text extraction.",
+        model_type=ModelType.LLM,
+        model_series=JINA_SERIES,
+    )
+)
@@ -40,6 +40,12 @@
     reference_link="https://huggingface.co/maidalun1020/bce-embedding-base_v1"
 )
 
+JINA_SERIES = ModelSeries(
+    model_series_name=ModelSeriesType.JINA,
+    description="Search foundation models: embeddings, rerankers, small LMs for better search",
+    reference_link="https://huggingface.co/jinaai"
+)
+
 
 QWEN2VL_SERIES = ModelSeries(
     model_series_name=ModelSeriesType.QWEN2VL,
Original file line number	Diff line number	Diff line change
`@@ -1 +1,2 @@`
`1`		`-from .bert_embedding import *`
	`1`	`+from . import bert_embedding`
	`2`	`+from . import jina`
Original file line number	Diff line number	Diff line change
`@@ -4,5 +4,6 @@`
`4`	`4`	`qwen,`
`5`	`5`	`llama,`
`6`	`6`	`deepseek,`
`7`		`- baichuan`
	`7`	`+ baichuan,`
	`8`	`+ jina`
`8`	`9`	`)`