📄 论文信息

arXiv: 2603.22458
分类: 工具/框架
标签: ocr, framework, efficiency, scientific, vision

📑 目录

本文档包含完整的论文研读报告，包括深度学术速读和技术实现分析两部分。

MinerU-Diffusion: Rethinking Document OCR as Inverse Rendering via Diffusion Decoding 双模式研读报告

论文信息：arXiv:2603.22458 [cs.CV] | 2026 年 3 月 23 日 | 上海人工智能实验室、北京大学 | 2.5B 参数扩散模型

Part A: 深度专业学术速读报告

结构化摘要 (Structured Abstract)

维度	内容
背景/目标	文档 OCR 已从行级转录演进为结构化文档解析，需要模型恢复包含布局、表格和公式的长序列。现有系统依赖自回归解码，引入顺序延迟并放大长文档中的错误传播。本研究旨在从逆渲染视角重新审视文档 OCR，提出基于扩散的并行解码框架。
方法	提出 MinerU-Diffusion，一个统一的基于扩散的框架，用并行扩散去噪替代自回归顺序解码。采用块级扩散解码器和不确定性驱动的课程学习策略，实现稳定训练和高效长序列推理。
结果	在 OmniDocBench v1.5 上达到 93.37 Overall 分数 (w/ GT Layout)，与顶级 AR 系统相当。解码速度最高提升 3.2×，同时在 Semantic Shuffle 基准上展现出对语言先验的更低依赖和更强的视觉 OCR 能力。
结论	扩散解码是文档 OCR 的有前景的替代方案，在保持高识别准确率的同时显著提升长序列推理效率，有效缓解自回归解码中的语义幻觉和累积错误传播问题。

1. 引言 (Introduction)

1.1. 研究背景与核心问题 (Research Background & Problem Statement)

近年来，视觉语言模型 (Vision-Language Models, VLMs) 已成为文档光学字符识别 (OCR) 的主导范式。这些模型将文本图像编码为视觉表示，并通过从左到右的自回归解码生成结构化文本，在多个基准测试中取得了强劲性能。然而，尽管架构统一化和规模化取得了进展，解码过程仍然严格顺序化。

这种设计在解析长文档和复杂布局时引入了效率和可靠性瓶颈，特别是在表格和公式等高度结构化场景中。从任务公式化的角度来看，高质量的 OCR 系统应主要依赖真实的视觉证据执行字符级识别，而非依赖语言模型的语义补全。但自回归公式化隐式地将 OCR 视为语言条件重建，在强语言先验下生成文本输出。

核心研究问题 (RQs)：

能否将文档 OCR 重新定义为逆渲染问题，而非序列生成任务？
扩散解码能否替代自回归解码，在保持准确率的同时提升效率？
如何设计训练策略以稳定扩散模型的长序列 OCR 训练？

1.2. 文献综述与研究缺口 (Literature Review & Research Gap)

现有研究脉络：

文档 OCR 已从传统的模块化流水线 (如 Marker、Docling) 演进为端到端视觉语言模型。代表性系统包括：

MinerU2.5 (Niu et al., 2025)：解耦视觉语言模型，用于高效高分辨率文档解析
PaddleOCR-VL (Cui et al., 2025)：统一的 OCR 流水线
dots.ocr (Li et al., 2025)：单视觉语言模型中的多语言文档布局解析
MonkeyOCR (Li et al., 2025)：结构 - 识别 - 关系三元组范式

研究缺口：

尽管统一范式简化了传统流水线并提高了跨域泛化能力，但继承了因果从左到右解码的结构性限制：

推理延迟：推理延迟与输出长度线性缩放，限制了长文档场景的效率
语言先验依赖：生成顺序与语言上下文的强耦合鼓励依赖语言先验，当视觉证据模糊或语义结构被破坏时可能损害鲁棒性
错误传播：顺序解码导致累积错误，特别是在长文档中

这些限制激发了替代解码范式的需求，该范式能够实现全局依赖建模并减少对单向因子化的依赖。

1.3. 研究目标与核心假设/命题 (Objectives & Hypotheses/Propositions)

研究目标：

将文档 OCR 明确公式化为视觉条件下的逆渲染问题
提出 MinerU-Diffusion，一个专为文档 OCR 定制的统一扩散解析框架
实现全局并行重建，同时保持高识别准确率
显著提升长序列推理效率，有效缓解语义幻觉和累积错误传播

核心命题：

命题 1：扩散解码在结构上更适合 OCR 任务的确定性映射特性，因为掩码扩散模型假设在部分观察序列和视觉输入条件下 token 之间的条件独立性
命题 2：块级注意力机制能够在保持并行效率的同时引入结构局部性，防止长程对齐漂移
命题 3：两阶段课程学习策略能够稳定扩散模型训练，克服标注噪声和长尾复杂性

2. 研究设计与方法 (Methodology)

2.1. 研究范式与方法论 (Research Paradigm & Methodology)

本研究采用系统构建与实证评估相结合的方法论。核心创新在于将文档 OCR 重新概念化为逆渲染问题，而非传统的序列生成任务。

理论框架：

文档 OCR 被建模为统一结构化 token 序列的逆渲染：

$$y = (y^{(1)}, ..., y^{(L)}) \in V^L$$

其中 V 是共享词汇表，包含文本符号、布局标记、表格分隔符和数学运算符。这种统一表示能够在单个序列接口内编码异构文档元素（如段落、表格、公式和阅读顺序）。

虽然被序列化为一维序列，但 y 对应于潜在的二维文档结构。token 之间的统计依赖主要源于空间排列、布局规则和格式约束，而非内在的因果生成顺序。因此，序列化顺序应被视为表示便利性引入的实现产物，而非文档生成过程的基本属性。

2.2. 数据来源与样本 (Data Source & Sample)

训练数据：

所有元训练数据源自 MinerU2.5 数据集，总量约 750 万样本
数据集主要关注中英文文档解析任务
三阶段训练流程：
- Stage-0：模态对齐 (LLaVA-Pretrain 550K + LLaVA-NeXT-Data 739K)
- Stage-1：大规模 OCR 适配 (Layout&OCR 6.9M，Dbase 子集)
- Stage-2：困难案例专业化 (Layout&OCR 630K，Dhard 子集)

评估基准：

OmniDocBench v1.5：全文档解析和布局分析 (1,355 页，混合匹配)
CC-OCR 和 OCRBench v2：表格识别
UniMER-Test：公式识别
Semantic Shuffle：新建基准，用于隔离真实视觉解码能力

2.3. 操作化与测量 (Operationalization & Measurement)

模型架构：

视觉编码器：初始化自 Qwen2-VL-7B
扩散解码器：初始化自 SDAR-1.7B-Chat-b32，块大小为 32
抽象器：随机参数初始化
移除 M-RoPE，采用原生尺度视觉特征

关键系统设计：

块级注意力机制：
- 输出序列划分为 B 个连续块：$y = (y^{(1)}, ..., y^{(B)})$
- 条件后验因子化：$p_\theta(y|x) = \prod_{b=1}^{B} p_\theta(y^{(b)}|y^{(<b)}, x)$
- 块内扩散局部操作，块间粗粒度自回归结构
- 注意力掩码定义： $$M_{ij} = \begin{cases} 1, & \text{if } b(i) = b(j) \ 1, & \text{if } b(j) < b(i) \ 0, & \text{otherwise} \end{cases}$$
两阶段课程学习：
- Stage I (多样性驱动的基础学习)：构建大规模、多样化、平衡的数据集 Dbase，强调广泛的视觉语义对齐、稳定特征学习和鲁棒的跨域泛化
- Stage II (不确定性驱动的边界优化)：通过推理一致性进行困难案例挖掘，选择预测不确定性高的样本进行专家优化

评估指标：

文本：编辑距离 (↓)
公式：CDM (↑)
表格：TEDS / TEDS-S (↑)
Overall 分数：$\frac{(1 - \text{TextEdit}) \times 100 + \text{FormulaCDM} + \text{TableTEDS}}{3}$
效率：Tokens Per Forward (TPF)、Throughput Per Second (TPS)

3. 结果与发现 (Results & Findings)

3.1. 主要发现概述 (Overview of Key Findings)

全文档解析性能 (OmniDocBench v1.5)：

设置	Overall↑	Text↓	Formula↑	TableTEDS↑	TableTEDS-S↑
w/o GT Layout	88.94	0.061	86.41	86.50	90.29
w/ GT Layout	93.37	0.028	91.92	91.00	94.86

关键发现：

在无 GT Layout 的全自动设置下，MinerU-Diffusion 达到 88.94 Overall 分数，优于大多数基于 AR 的模型
使用 GT Layout 时，性能提升至 93.37，接近顶级 AR 系统 (MinerU2.5: 93.44, PaddleOCR-VL: 93.91)
两种设置之间的显著差距表明布局理解仍是关键瓶颈

效率提升：

在 93%+ 准确率下 (threshold=0.95)，实现 2.12× 加速 (108.9 TPS vs 51.46 TPS)
在 90%+ 准确率下 (threshold=0.6)，实现峰值 3.2× 加速 (164.8 TPS)
置信度阈值作为可控的系统级旋钮，实现效率与保守性之间的连续可预测权衡

元素级解析性能：

任务	数据集	MinerU-Diffusion	最佳 AR 基线
表格识别	OCRBench v2	81.18/88.66 (TEDS/TEDS-S)	MinerU2.5: 87.13/90.62
表格识别	CC-OCR	73.77/82.06	MinerU2.5: 85.16/90.62
公式识别	UniMER-Test	91.6/91.6/92.0/96.8 (CPE/HWE/SCE/SPE)	MinerU2.5: 96.6/94.4/96.4/98.4

3.2. 关键数据与图表解读 (Interpretation of Key Data & Figures)

图 1：解码并行度与准确率权衡

展示内容：置信度阈值如何控制 MinerU-Diffusion 中的解码并行度
揭示关系：随着阈值从 0.5 增加到 0.99，TPF 和 TPS 单调下降；低阈值放松确认约束，实现更大的并行解码和更高的吞吐量
关键数据：threshold=0.95 时达到 2.12× 加速 (99.9% 相对准确率)，threshold=0.6 时达到 3.01× 加速 (98.8% 相对准确率)

图 2：AR 与扩散解码对比

展示内容：自回归与扩散解码方法的文档 OCR 逆渲染过程
揭示关系：AR 需要 N 步顺序解码，而扩散解码步数远小于 N，支持并行多 token 更新
关键洞察：扩散解码在视觉条件下从掩码 token 逐步重建结构化文本，实现并行生成与全局一致性

图 7：Semantic Shuffle 基准分析

展示内容：不同扭曲级别下 AR 解码器与扩散解码器的性能对比
揭示关系：随着扭曲级别增加，AR 解码器性能急剧下降，而扩散解码器保持几乎恒定的性能
关键发现：AR 解码器严重依赖语言合理性，而扩散解码在语义无效输入下更直接与视觉信号对齐

4. 讨论 (Discussion)

4.1. 结果的深度解读 (In-depth Interpretation of Results)

MinerU-Diffusion 的核心贡献在于证明了扩散解码作为 AR 解码替代方案的可行性。实验结果验证了三个核心命题：

结构对齐优势：扩散解码的条件独立性假设在 OCR 场景中特别合理，因为目标文本与图像中的文本存在近乎确定性的映射，语义歧义有限。这使得模型能够并行解码长文本跨度而不牺牲一致性。
效率 - 准确率权衡的可控性：置信度阈值作为系统级旋钮，允许在效率和保守性之间进行连续可预测的权衡。在 threshold=0.95 时，MinerU-Diffusion 实现了与 MinerU2.5 相当的准确率，同时保留了优越的解码效率。
鲁棒性提升：Semantic Shuffle 基准上的结果表明，扩散解码减少了对语言先验的依赖，在语义结构被破坏时表现出更强的视觉 OCR 能力。

4.2. 理论贡献 (Theoretical Contributions)

重新概念化文档 OCR：将文档 OCR 从序列生成任务重新定义为逆渲染问题，挑战了 AR 解码作为默认范式的假设。
扩散模型的结构适配：证明了掩码扩散模型在结构上与 OCR 任务的特性对齐，为大规模文本识别提供了理论依据和实践优势。
块级注意力设计：引入块级注意力机制，在保持并行效率的同时引入结构局部性，解决了全注意力扩散在长序列上的计算和稳定性问题。

4.3. 实践启示 (Practical Implications)

长文档解析效率：对于需要处理大量长文档的应用 (如数字图书馆、企业文档管理)，MinerU-Diffusion 提供了显著的加速潜力。
减少语义幻觉：在需要高保真度的场景 (如法律文档、医疗记录)，扩散解码减少了对语言先验的依赖，降低了语义幻觉风险。
系统级优化空间：置信度阈值作为可控参数，允许根据具体应用需求调整效率 - 准确率权衡。

4.4. 局限性与未来研究 (Limitations & Future Research)

局限性：

布局理解瓶颈：w/o GT Layout 与 w/ GT Layout 设置之间的性能差距表明布局分析仍是主要瓶颈
复杂公式识别：在公式识别的困难类别 (如 CPE) 上与最佳专用流水线仍有差距
低资源语言：数据集主要关注中英文，未对低资源语言进行专门评估
训练稳定性：扩散模型训练对标注噪声更敏感，需要精心设计的训练策略

未来研究方向：

布局预测改进：集成更强的布局检测模块，缩小全自动设置与 oracle 布局设置之间的差距
符号级建模：针对复杂印刷表达式，开发更精确的符号级建模和结构感知解码
多语言扩展：扩展到低资源语言，提高跨语言泛化能力
端到端优化：探索布局检测与内容识别的联合优化策略

5. 结论 (Conclusion)

MinerU-Diffusion 提出了一个 2.5B 参数的基于扩散的文档 OCR 框架，用块级并行扩散解码和置信度引导调度替代自回归解码，提高了效率和可扩展性。两阶段课程学习策略稳定了训练并增强了边界精度和鲁棒性。在文档、表格、公式和 Semantic Shuffle 基准上的实验表明，与 AR 基线相比具有竞争性性能，并对破坏的语义表现出更强的弹性，突出了基于扩散的并行解码作为文档 OCR 的有前景的替代方案。

6. 核心参考文献 (Core References)

Niu et al. (2025). MinerU2.5: A decoupled vision-language model for efficient high-resolution document parsing. arXiv:2509.22186.
Cheng et al. (2025). SDAR: A synergistic diffusion-autoregression paradigm for scalable sequence generation. arXiv:2510.06303.
Ouyang et al. (2025). OmniDocBench: Benchmarking diverse PDF document parsing with comprehensive annotations. CVPR 2025.
Nie et al. (2025). Large language diffusion models. arXiv:2502.09992.
Wang et al. (2024). Unimernet: A universal network for real-world mathematical expression recognition. arXiv:2404.15254.

Part B: 核心逻辑链与根本价值提炼

核心四要素

要素	内容
根本问题	现有文档 OCR 系统依赖自回归 (AR) 顺序解码，导致两大核心缺陷：(1) 推理延迟与输出长度线性增长，长文档效率低下；(2) 强依赖语言先验，当视觉信号弱或语义结构被破坏时产生语义幻觉和累积错误。问题的根源在于 AR 解码的因果因子化是序列化的产物，而非 OCR 任务的固有属性。
切入视角	将文档 OCR 重新定义为"逆渲染"问题：文档输出是空间耦合的离散随机场，而非严格的方向性序列。扩散解码的条件独立性假设 (给定输入和部分观察序列，每个 token 可独立预测) 与 OCR 的确定性映射特性天然对齐，因为目标文本与图像中的文本存在一一对应关系，语义歧义有限。
关键方法	块级扩散解码 + 不确定性驱动课程学习：(1) 块级注意力机制：块内并行扩散 refinement，块间粗粒度自回归结构，将计算复杂度从 O(L²) 降至 O(BL'²)；(2) 两阶段训练：Stage I 用大规模多样化数据建立基础表示，Stage II 用不确定性挖掘的困难样本进行边界优化，克服标注噪声和长尾复杂性。
核心发现	在 OmniDocBench 上达到 93.37 Overall 分数 (w/ GT Layout)，与顶级 AR 系统 (MinerU2.5: 93.44) 相当，同时实现最高 3.2× 解码加速。在 Semantic Shuffle 基准上，扩散解码器在语义结构被破坏时保持恒定性能，而 AR 解码器性能急剧下降，证明扩散解码减少了对语言先验的依赖，具有更强的视觉 OCR 能力。

方法公式化

MinerU-Diffusion = (块级并行扩散 × 视觉条件) + 不确定性驱动课程学习

更精细的分解：

解码效率 = (置信度阈值调控 × 块内并行更新) / 序列长度
训练稳定性 = (Stage I 多样性数据 + Stage II 困难样本加权) × 渐进课程
鲁棒性 = 视觉证据权重 / 语言先验依赖

最终双重总结

一句话总结（核心价值）：MinerU-Diffusion 通过将文档 OCR 重新定义为逆渲染问题，采用块级并行扩散解码替代自回归顺序解码，在保持与顶级 AR 系统相当准确率 (93.37 vs 93.44) 的同时实现最高 3.2× 加速，并显著减少了对语言先验的依赖，为高效可靠的文档 OCR 提供了新的建模范式。

一句话总结（大白话版）：传统的文档识别像一个人从左到右逐字读书，遇到看不清的地方就靠猜；MinerU-Diffusion 则像同时看整页纸，哪里不清楚就重点看哪里，速度快了 3 倍多，还不容易被文字内容带偏，更依赖眼睛看到的真实图像。

MinerU-Diffusion: Rethinking Document OCR as Inverse Rendering via Diffusion Decoding 双模式研读报告 ​

Part A: 深度专业学术速读报告 ​

结构化摘要 (Structured Abstract) ​

1. 引言 (Introduction) ​

1.1. 研究背景与核心问题 (Research Background & Problem Statement) ​

1.2. 文献综述与研究缺口 (Literature Review & Research Gap) ​

1.3. 研究目标与核心假设/命题 (Objectives & Hypotheses/Propositions) ​

2. 研究设计与方法 (Methodology) ​

2.1. 研究范式与方法论 (Research Paradigm & Methodology) ​

2.2. 数据来源与样本 (Data Source & Sample) ​

2.3. 操作化与测量 (Operationalization & Measurement) ​

3. 结果与发现 (Results & Findings) ​

3.1. 主要发现概述 (Overview of Key Findings) ​

3.2. 关键数据与图表解读 (Interpretation of Key Data & Figures) ​

4. 讨论 (Discussion) ​

4.1. 结果的深度解读 (In-depth Interpretation of Results) ​

4.2. 理论贡献 (Theoretical Contributions) ​

4.3. 实践启示 (Practical Implications) ​

4.4. 局限性与未来研究 (Limitations & Future Research) ​

5. 结论 (Conclusion) ​

6. 核心参考文献 (Core References) ​

Part B: 核心逻辑链与根本价值提炼 ​

核心四要素 ​

方法公式化 ​

最终双重总结 ​