Skip to content

业务表格解析错误 #3911

@aning35

Description

@aning35

🔎 Search before asking | 提交之前请先搜索

  • I have searched the MinerU Readme and found no similar bug report.
  • I have searched the MinerU Issues and found no similar bug report.
  • I have searched the MinerU Discussions and found no similar bug report.

🤖 Consult the online AI assistant for assistance | 在线 AI 助手咨询

Description of the bug | 错误描述

Image

几百个图片解析,通过 MinerUClient 或者 MinerU桌面客户端,只有这张图片解析都是报错。

MinerUClient 报错日志:

2025-11-01 12:27:29 - document_parsing - INFO - 正在调用 VLM 模型提取内容...
2025-11-01 12:27:29 - document_parsing - INFO - 🚀 GPU 加速推理中(已加载到显存,速度快)...
INFO: 192.168.1.1:54066 - "GET /api/v1/tasks/b22497c6-8703-4f64-9c91-787661beb10a HTTP/1.1" 200 OK
INFO: 192.168.1.1:54042 - "GET /api/v1/tasks/b22497c6-8703-4f64-9c91-787661beb10a HTTP/1.1" 200 OK
INFO: 192.168.1.1:54042 - "GET /api/v1/tasks/b22497c6-8703-4f64-9c91-787661beb10a HTTP/1.1" 200 OK
2025-11-01 12:27:34 - document_parsing - INFO - 推理进行中... 已耗时 5.0 秒
2025-11-01 12:27:34 - document_parsing - INFO - 任务状态更新: b22497c6-8703-4f64-9c91-787661beb10a -> TaskStatus.PROCESSING
2025-11-01 12:27:34 - document_parsing - INFO - 任务 b22497c6-8703-4f64-9c91-787661beb10a 进度: 60% -
INFO: 192.168.1.1:54042 - "GET /api/v1/tasks/b22497c6-8703-4f64-9c91-787661beb10a HTTP/1.1" 200 OK
INFO: 192.168.1.1:54042 - "GET /api/v1/tasks/b22497c6-8703-4f64-9c91-787661beb10a HTTP/1.1" 200 OK
2025-11-01 12:27:39 - document_parsing - INFO - 推理进行中... 已耗时 10.0 秒
2025-11-01 12:27:39 - document_parsing - INFO - 任务状态更新: b22497c6-8703-4f64-9c91-787661beb10a -> TaskStatus.PROCESSING
2025-11-01 12:27:39 - document_parsing - INFO - 任务 b22497c6-8703-4f64-9c91-787661beb10a 进度: 70% -
INFO: 192.168.1.1:54042 - "GET /api/v1/tasks/b22497c6-8703-4f64-9c91-787661beb10a HTTP/1.1" 200 OK
INFO: 192.168.1.1:54042 - "GET /api/v1/tasks/b22497c6-8703-4f64-9c91-787661beb10a HTTP/1.1" 200 OK
2025-11-01 12:27:44 - document_parsing - INFO - 推理进行中... 已耗时 15.0 秒
2025-11-01 12:27:44 - document_parsing - INFO - 任务状态更新: b22497c6-8703-4f64-9c91-787661beb10a -> TaskStatus.PROCESSING
2025-11-01 12:27:44 - document_parsing - INFO - 任务 b22497c6-8703-4f64-9c91-787661beb10a 进度: 70% -
INFO: 192.168.1.1:54042 - "GET /api/v1/tasks/b22497c6-8703-4f64-9c91-787661beb10a HTTP/1.1" 200 OK
INFO: 192.168.1.1:54042 - "GET /api/v1/tasks/b22497c6-8703-4f64-9c91-787661beb10a HTTP/1.1" 200 OK
INFO: 192.168.1.1:54042 - "GET /api/v1/tasks/b22497c6-8703-4f64-9c91-787661beb10a HTTP/1.1" 200 OK
Warning: line does not match layout format: 平安物业责任险(全国版)-普惠版
Warning: line does not match layout format: 累计赔偿限额500万(系数1)/1000万(系数1.05)
Warning: line does not match layout format: 每次事故赔偿限额150万(系数1)/250万(系数1.05)
Warning: line does not match layout format: 每次事故财产损失赔偿限额20万
Warning: line does not match layout format: 每次事故每人赔偿限额10万20万30万40万50万
Warning: line does not match layout format: 对应基准保费38004300530065006800
Warning: line does not match layout format: 面积<10000㎡10000-49999㎡50000-89999㎡90000-129999㎡130000-169999170000-209999㎡210000-299999300000-400000
Warning: line does not match layout format: 面积对应系数11.251.51.7522.252.53
Warning: line does not match layout format: 主险免赔本保单每次事故标准绝对免赔10%或5000人民币
Warning: line does not match layout format: 主险保费计算基准保费“面积系数”累计赔偿限额系数“每次事故赔偿限额系数
Warning: line does not match layout format: 附加险累计赔偿限额每次事故赔偿限额每人/每车赔偿限额保费免赔是否必选
Warning: line does not match layout format: 物业管理责任保险附加室盗窃责任保险10000001000000免费5000元/10%取高必选
Warning: line does not match layout format: 物业管理责任保险附加停车场责任险100000020000050000车位数6元可选
Warning: line does not match layout format: 附加电梯责任保险1000000500000100000电梯数
150元可选
Warning: line does not match layout format: 最终保费主险保费+附加险保费
Warning: line does not match layout format: 特别约定1、本保单承保的是被保险人管理的公共区域,投保人应对投保的营业场所面积进行准确告知,如投保填写的营业面积小于实际营业面积,将按比例赔付。2、*本保单如投保停车场责任保险,补充特别约定如下:(1)被保险人应当具备适当的安全防范措施,保证闭路电视监控系统运行正常,二十四小时有专门人员值班,车辆进出全部予以记录,出险后被保险人必须提供能证明事故的监控录像等证明其责任的材料,否则不承担赔偿责任。(2)本保单不承担路边停车位、未划线车位发生的任何损失。(3)出险后保险人有权核实实际车位数,被保险人投保的车位数低于出险时实际车位数时,按投保车位数与出险时被保险人实际车位数的比例乘以实际损失计算赔偿,最高不超过每次事故赔偿限额3、全车盗抢险责任每次事故绝对免赔2000元或损失金额的20%,两者以高者为准且全车盗抢险责任的赔偿金额不超过整车实际价值的80%。室外车位盗抢事故所致损失,保险人不负责赔偿。4、电梯等特种设备必须每年定期参加国家强制认证检测,若逾期未取得认证,则保险人不予承担相关责任。5、电梯等特种设备必须由持有相关检修上岗资格证的专业人员进行维护,否则保险人不予承担相关责任。6、若投保电梯设备遭遇故障无法正常运行,则被保险人必须立即停止故障设备运行并设置隔离护栏,否则保险人不予承担相关责任。7、由于违章操作电梯等特种设备造成的保险事故,保险人不承担赔偿责任。
Warning: line does not match layout format: 投保须知1、保险期限:1年2、承保地区:全国大陆3、承保面积范围:营业面积小于40万㎡4、适合客户群体:物业管理公司、房地产开发商、业主委员会或社区组织、公共设施管理者(如公园、体育馆、学校等)
Warning: line does not match layout format:

How to reproduce the bug | 如何复现

import io
import asyncio
import aiofiles

from vllm.v1.engine.async_llm import AsyncLLM
from vllm.engine.arg_utils import AsyncEngineArgs
from PIL import Image
from mineru_vl_utils import MinerUClient
from mineru_vl_utils import MinerULogitsProcessor # if vllm>=0.10.1

async_llm = AsyncLLM.from_engine_args(
AsyncEngineArgs(
model="OpenDataLab/MinerU2.5-2509-1.2B",
logits_processors=[MinerULogitsProcessor] # if vllm>=0.10.1
)
)

client = MinerUClient(
backend="vllm-async-engine",
vllm_async_llm=async_llm,
)

async def main():
image_path = "/path/to/the/test/image.png"
async with aiofiles.open(image_path, "rb") as f:
image_data = await f.read()
image = Image.open(io.BytesIO(image_data))
extracted_blocks = await client.aio_two_step_extract(image)
print(extracted_blocks)

asyncio.run(main())

async_llm.shutdown()

Operating System Mode | 操作系统类型

Linux

Operating System Version| 操作系统版本

PRETTY_NAME="Ubuntu 24.04.2 LTS"
NAME="Ubuntu"
VERSION_ID="24.04"
VERSION="24.04.2 LTS (Noble Numbat)"
VERSION_CODENAME=noble
ID=ubuntu
ID_LIKE=debian
HOME_URL="https://www.ubuntu.com/"
SUPPORT_URL="https://help.ubuntu.com/"
BUG_REPORT_URL="https://bugs.launchpad.net/ubuntu/"
PRIVACY_POLICY_URL="https://www.ubuntu.com/legal/terms-and-policies/privacy-policy"
UBUNTU_CODENAME=noble
LOGO=ubuntu-logo

Python version | Python 版本

3.12

Software version | 软件版本 (mineru --version)

>=2.5

Backend name | 解析后端

vlm

Device mode | 设备模式

cuda

Metadata

Metadata

Assignees

No one assigned

    Labels

    bugSomething isn't working

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions