-
Notifications
You must be signed in to change notification settings - Fork 4.1k
Closed
Labels
bugSomething isn't workingSomething isn't working
Description
🔎 Search before asking | 提交之前请先搜索
- I have searched the MinerU Readme and found no similar bug report.
- I have searched the MinerU Issues and found no similar bug report.
- I have searched the MinerU Discussions and found no similar bug report.
🤖 Consult the online AI assistant for assistance | 在线 AI 助手咨询
- I have consulted the online AI assistant but was unable to obtain a solution to the issue.
Description of the bug | 错误描述
通过MinerU官网的在线解析demo,基于vlm模式开展上市公司年报解析,经仔细比对解析结果,发现存在如下明显bug
1、跨页表格被解析之后,没有被合并成一个真正完整的表格,这种现象多次出现,主要体现为以下两种形式:
a、以解析之后的两个表格紧挨的方式来呈现原文中的一个完整表格,但实际上应当被解析成一个完整表格才对;
b、原文中的跨页表格,在跨页前后存在着单元格内容折行时,所解析的跨页表格在存在折行的这一行上会被生成两行;
2、跨页表格被解析之后,跨页前后的两个表格的解析结果,在格式上存在明显错误,跨页前的表格解析格式为正确,而跨页后的那个表格的格式则少了一列。
3、目前表格的解析仍然只能溯源到整表,还不能溯源到cell级别,不利于比对解析结果的准确性。
How to reproduce the bug | 如何复现
1、在官网上传上市公司的年报,我所上传的年报名称为:2022年年度报告.pdf,该年报为金富科技股份有限公司的年报;
2、开始解析;
3、对比解析结果即可发现在表格解析上的上述bug。
Operating System Mode | 操作系统类型
Windows
Operating System Version| 操作系统版本
Windows11
Python version | Python 版本
3.13
Software version | 软件版本 (mineru --version)
<2.2.0
Backend name | 解析后端
vlm
Device mode | 设备模式
cuda
Metadata
Metadata
Assignees
Labels
bugSomething isn't workingSomething isn't working