Skip to content

跨页表格存在解析后的两个表的格式明显不一致问题 #3877

@feng4AI

Description

@feng4AI

🔎 Search before asking | 提交之前请先搜索

  • I have searched the MinerU Readme and found no similar bug report.
  • I have searched the MinerU Issues and found no similar bug report.
  • I have searched the MinerU Discussions and found no similar bug report.

🤖 Consult the online AI assistant for assistance | 在线 AI 助手咨询

Description of the bug | 错误描述

通过MinerU官网的在线解析demo,基于vlm模式开展上市公司年报解析,经仔细比对解析结果,发现存在如下明显bug
1、跨页表格被解析之后,没有被合并成一个真正完整的表格,这种现象多次出现,主要体现为以下两种形式:
a、以解析之后的两个表格紧挨的方式来呈现原文中的一个完整表格,但实际上应当被解析成一个完整表格才对;
b、原文中的跨页表格,在跨页前后存在着单元格内容折行时,所解析的跨页表格在存在折行的这一行上会被生成两行;
2、跨页表格被解析之后,跨页前后的两个表格的解析结果,在格式上存在明显错误,跨页前的表格解析格式为正确,而跨页后的那个表格的格式则少了一列。
3、目前表格的解析仍然只能溯源到整表,还不能溯源到cell级别,不利于比对解析结果的准确性。

How to reproduce the bug | 如何复现

1、在官网上传上市公司的年报,我所上传的年报名称为:2022年年度报告.pdf,该年报为金富科技股份有限公司的年报;
2、开始解析;
3、对比解析结果即可发现在表格解析上的上述bug。

Operating System Mode | 操作系统类型

Windows

Operating System Version| 操作系统版本

Windows11

Python version | Python 版本

3.13

Software version | 软件版本 (mineru --version)

<2.2.0

Backend name | 解析后端

vlm

Device mode | 设备模式

cuda

Metadata

Metadata

Assignees

No one assigned

    Labels

    bugSomething isn't working

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions