update processor

grimoire · grimoire · commit 524b402e7376 · 2024-11-16T16:06:10.000+08:00
diff --git a/lmdeploy/pytorch/engine/engine_instance.py b/lmdeploy/pytorch/engine/engine_instance.py
@@ -2,7 +2,7 @@
 from typing import List
 
 from lmdeploy.messages import EngineOutput, GenerationConfig
-from lmdeploy.pytorch.multimodal import MultiModalData
+from lmdeploy.pytorch.multimodal.data_type import MultiModalInputs
 from lmdeploy.utils import get_logger
 
 from ..messages import SamplingParam
@@ -125,14 +125,13 @@ def _try_add_session(self, session_id: int):
         """
         return try_add_session(self.req_sender, session_id)
 
-    async def async_stream_infer(
-            self,
-            session_id: int,
-            input_ids: List[int],
-            gen_config: GenerationConfig = None,
-            input_multimodals: List[MultiModalData] = None,
-            adapter_name: str = None,
-            **kwargs):
+    async def async_stream_infer(self,
+                                 session_id: int,
+                                 input_ids: List[int],
+                                 gen_config: GenerationConfig = None,
+                                 input_multimodals: MultiModalInputs = None,
+                                 adapter_name: str = None,
+                                 **kwargs):
         """Send stream inference request.
 
         Args:
@@ -184,7 +183,7 @@ async def async_stream_infer(
     async def async_infer(self,
                           session_id: int,
                           input_ids: List[int] = None,
-                          input_multimodals: List[MultiModalData] = None,
+                          input_multimodals: MultiModalInputs = None,
                           gen_config: GenerationConfig = None,
                           **kwargs):
         """Send inference request.
@@ -216,7 +215,7 @@ async def async_infer(self,
     def stream_infer(self,
                      session_id: int,
                      input_ids: List[int],
-                     input_multimodals: List[MultiModalData] = None,
+                     input_multimodals: MultiModalInputs = None,
                      gen_config: GenerationConfig = None,
                      adapter_name: str = None,
                      **kwargs):
@@ -286,7 +285,7 @@ def __call_async():
     def infer(self,
               session_id: int,
               input_ids: List[int] = None,
-              input_multimodals: List[MultiModalData] = None,
+              input_multimodals: MultiModalInputs = None,
               gen_config: GenerationConfig = None,
               **kwargs):
         """Send inference request.
@@ -318,7 +317,7 @@ async def async_batched_infer(
         self,
         session_ids: List[int],
         token_ids: List[List[int]] = None,
-        input_multimodals: List[List[MultiModalData]] = None,
+        input_multimodals: List[MultiModalInputs] = None,
         gen_config: GenerationConfig = None,
         adapter_names: List[str] = None,
         keep_cache: bool = False,
@@ -407,7 +406,7 @@ def batched_infer(
         self,
         session_ids: List[int],
         token_ids: List[List[int]] = None,
-        input_multimodals: List[List[MultiModalData]] = None,
+        input_multimodals: List[MultiModalInputs] = None,
         gen_config: GenerationConfig = None,
         adapter_names: List[str] = None,
         keep_cache: bool = False,
@@ -439,7 +438,7 @@ def cancel(self, session_id: int):
 
     def decode(self,
                input_ids,
-               input_multimodals: List[List[MultiModalData]] = None,
+               input_multimodals: List[MultiModalInputs] = None,
                steps: List[int] = None,
                sequence_start: bool = True,
                sequence_end: bool = True,
@@ -449,7 +448,7 @@ def decode(self,
         Args:
             input_ids (numpy.ndarray): the batch of input token ids
             steps (List[int]): the offset of the k/v cache
-            input_multimodals (List[List[MultiModalData]]):
+            input_multimodals (List[MultiModalInputs]):
                 multimodals inputs.
             sequence_start (bool): indicator for starting a sequence
             sequence_end (bool): indicator for ending a sequence
diff --git a/lmdeploy/pytorch/models/mllama.py b/lmdeploy/pytorch/models/mllama.py
@@ -1500,35 +1500,22 @@ def __init__(self, config: LlamaConfig, dtype: torch.dtype) -> None:
     def preprocess_input(self, input_ids, input_multimodals: MultiModalInputs,
                          **kwargs):
         """prepare multimodal input."""
-        from lmdeploy.pytorch.multimodal.data_type import MultiModalTensor
-
-        multimodals_dict = dict()
-        multimodals_dict['image'] = []
-
-        input_multimodals = sorted(input_multimodals, key=lambda mm: mm.loc)
-
-        for input_mm in input_multimodals:
-            image = input_mm.data
-            start = input_mm.loc
-            size = image.size
-            if any([s < 3 for s in size]):
-                image = image.resize([s * 3 for s in size])
-            image_inputs = self.processor.image_processor(images=image,
-                                                          return_tensors='pt')
-            pixel_values = image_inputs['pixel_values'].to(self.dtype)
-            aspect_ratio_ids = image_inputs['aspect_ratio_ids']
-            aspect_ratio_mask = image_inputs['aspect_ratio_mask']
-            mm_tensor = MultiModalTensor(
-                data=pixel_values,
-                start=start,
-                end=start + 1,
-                encoder_len=self.encoder_len,
-                meta=dict(aspect_ratio_ids=aspect_ratio_ids,
-                          aspect_ratio_mask=aspect_ratio_mask))
-            multimodals_dict['image'].append(mm_tensor)
+        if input_multimodals is None:
+            return input_ids, input_multimodals
+
+        input_imgs = input_multimodals.get('image', None)
+        if input_imgs is None:
+            return input_ids, input_multimodals
+
+        input_imgs = sorted(input_imgs, key=lambda mm: mm.start)
+
+        for img in input_imgs:
+            img.data = img.data.to(self.dtype)
+            img.end = img.start + 1
+            img.encoder_len = self.encoder_len
 
         result = PreprocessInputResult(
             input_ids=input_ids,
-            input_multimodals=multimodals_dict,
+            input_multimodals=dict(image=input_imgs),
         )
         return result
diff --git a/lmdeploy/pytorch/models/qwen2_vl.py b/lmdeploy/pytorch/models/qwen2_vl.py
@@ -672,9 +672,6 @@ def forward(self, hidden_states: torch.Tensor, cu_seqlens: torch.Tensor,
         return self.merger(hidden_states)
 
 
-OPTIONAL_KEYS = ['resized_height', 'resized_width', 'min_pixels', 'max_pixels']
-
-
 class Qwen2VLForConditionalGeneration(nn.Module, DeployModelMixin,
                                       CudaGraphMixin):
     """ModelForCausalLM."""
@@ -1004,52 +1001,34 @@ def __init__(self, config: PretrainedConfig) -> None:
 
     def preprocess_input(self,
                          input_ids: List[int],
-                         input_mms: MultiModalInputs = None,
+                         input_multimodals: MultiModalInputs = None,
                          **kwargs) -> PreprocessInputResult:
         """prepare multimodal input."""
-        from qwen_vl_utils import process_vision_info
-
-        from lmdeploy.pytorch.multimodal.data_type import MultiModalTensor
-        global OPTIONAL_KEYS
+        if input_multimodals is None:
+            return input_ids, input_multimodals
 
-        multimodals_dict = dict()
-        multimodals_dict['image'] = []
+        input_imgs = input_multimodals.get('image', None)
+        if input_imgs is None:
+            return input_ids, input_multimodals
 
-        input_mms = sorted(input_mms, key=lambda mm: mm.loc)
+        input_imgs = sorted(input_imgs, key=lambda mm: mm.start)
 
         cum_pad = 0
         image_token_id = self.config.image_token_id
 
-        # image
-        for in_mm in input_mms:
-            image = in_mm.data
-            param = in_mm.meta
-            param = dict() if param is None else param
-            item = dict(type='image', image=image)
-            item.update({k: param[k] for k in OPTIONAL_KEYS if k in param})
-            messages = [dict(content=[item])]
-            image_inputs, _ = process_vision_info(messages)
-            image_inputs = self.processor.image_processor(images=image_inputs,
-                                                          videos=None,
-                                                          return_tensors='pt')
-            pixel_values = image_inputs['pixel_values']
-            image_grid_thw = image_inputs['image_grid_thw']
+        for img in input_imgs:
+            pixel_values = img.data
             pad_size = pixel_values.size(0) // 4
-            loc = in_mm.loc
-            start = loc + cum_pad
+            start = img.start + cum_pad
             end = start + pad_size
             cum_pad += pad_size
-            input_ids = input_ids[:start] + [image_token_id
-                                             ] * pad_size + input_ids[start:]
-
-            mm_tensor = MultiModalTensor(data=pixel_values,
-                                         start=start,
-                                         end=end,
-                                         meta=dict(grid_thw=image_grid_thw))
-            multimodals_dict['image'].append(mm_tensor)
+            input_ids = (input_ids[:start] + [image_token_id] * pad_size +
+                         input_ids[start:])
+            img.start = start
+            img.end = end
 
         result = PreprocessInputResult(
             input_ids=input_ids,
-            input_multimodals=multimodals_dict,
+            input_multimodals=dict(image=input_imgs),
         )
         return result
diff --git a/lmdeploy/pytorch/multimodal/data_type.py b/lmdeploy/pytorch/multimodal/data_type.py
@@ -18,10 +18,14 @@ class MultiModalData:
 class MultiModalTensor:
     data: NestedTensor
     start: int
-    end: int
+    end: int = None
     encoder_len: int = None
     meta: Dict[str, Any] = None
 
+    def __post_init__(self):
+        if self.end is None:
+            self.end = self.start
+
     def to_device(self, device: str, non_blocking: bool = False):
         """to device."""
         if isinstance(self.data, Tensor):