📄 论文信息
- arXiv: 2510.14528
- 分类: 多模态
- 标签: ocr, multimodal, efficiency, scientific, optimization, vision
📑 目录
本文档包含完整的论文研读报告,包括深度学术速读和技术实现分析两部分。
PaddleOCR-VL 双模式研读报告
论文标题: PaddleOCR-VL: Boosting Multilingual Document Parsing via a 0.9B Ultra-Compact Vision-Language Model
作者: Cheng Cui, Ting Sun, Suyin Liang, et al. (PaddlePaddle Team, Baidu Inc.)
arXiv: 2510.14528v4 [cs.CV] 25 Nov 2025
代码: https://github.com/PaddlePaddle/PaddleOCR
模型: https://huggingface.co/PaddlePaddle
Part A: 深度专业学术速读报告
结构化摘要 (Structured Abstract)
| 维度 | 内容 |
|---|---|
| 背景/目标 | 文档解析是信息检索和数据管理的核心技术,但现有方法存在集成复杂、误差累积、计算开销大等问题。本研究旨在提出一种高性能、资源高效的多模态文档解析方案。 |
| 方法 | 提出两阶段架构:PP-DocLayoutV2 负责布局分析和阅读顺序预测,PaddleOCR-VL-0.9B 负责元素级识别。采用 NaViT-style 动态分辨率视觉编码器 + ERNIE-4.5-0.3B 语言模型,支持 109 种语言。 |
| 结果 | 在 OmniDocBench v1.5 上达到 92.86 的总体得分(SOTA),在 olmOCR-Bench 上达到 80.0 分。推理速度比 MinerU2.5 快 53.1%(页面吞吐量)和 50.9%(token 吞吐量)。 |
| 结论 | PaddleOCR-VL 在页面级和元素级文档解析任务上均达到 SOTA 性能,同时保持最小资源消耗,适合实际部署。 |
1. 引言 (Introduction)
1.1. 研究背景与核心问题 (Research Background & Problem Statement)
文档作为信息的核心载体,其复杂性和数量呈指数级增长,使得文档解析 (Document Parsing) 成为不可或缺的关键技术。文档解析的核心目标是实现对文档布局的深度结构和语义理解,具体包括:识别不同的文本块和列、区分公式/表格/图表/图像、确定正确的阅读顺序、检测关键元素(如脚注和图像标题)。
当前文档解析面临的核心挑战在于现代文档的固有复杂性:它们通常结合密集文本、复杂表格或图表、数学表达式、多语言和手写文本,以及多样化的布局结构。
本研究要回答的核心问题 (Research Questions):
- RQ1: 如何在保持高性能的同时,降低文档解析模型的计算开销和资源消耗?
- RQ2: 如何克服纯 end-to-end VLM 方法在长序列输出中的幻觉和文本顺序错误问题?
- RQ3: 如何构建高质量的训练数据以支持多语言、多类型文档的解析?
1.2. 文献综述与研究缺口 (Literature Review & Research Gap)
当前文档解析研究主要遵循两种技术路线:
路线一:Pipeline 方法(基于模块化专家模型)
- 代表工作:MinerU [9]、PP-StructureV3 [10]、Marker [45]
- 优势:各模块性能强
- 局限:集成复杂度高、误差累积传播、处理高度复杂文档时存在固有限制
路线二:End-to-end 方法(基于多模态大模型)
- 代表工作:MinerU2.5 [2]、Dolphin [3]、POINTS-Reader [4]、olmOCR [12]
- 优势:简化工作流、可实现联合优化
- 局限:面对长或复杂布局时易产生文本顺序错误和幻觉、长序列输出计算开销大、限制实际部署
研究缺口 (Research Gap): 现有方法无法同时满足高性能、低资源消耗和实际可部署性的需求。Pipeline 方法虽然性能强但集成复杂,End-to-end 方法虽然简化了流程但计算开销大且易产生幻觉。因此,需要一种新的架构设计来平衡性能与效率。
1.3. 研究目标与核心假设/命题 (Objectives & Hypotheses/Propositions)
研究目标: 提出 PaddleOCR-VL,一种基于视觉 - 语言模型的高性能、资源高效文档解析方案,实现:
- 在多个公开基准上达到 SOTA 性能
- 显著降低推理延迟和资源消耗
- 支持 109 种语言的全球化文档处理
核心命题:
- 命题 1: 两阶段架构(布局分析 + 元素识别)优于纯 end-to-end 方法,能够避免长序列自回归过程中的高延迟和幻觉问题
- 命题 2: NaViT-style 动态分辨率视觉编码器 + 轻量级语言模型的组合能够在保持高精度的同时显著降低计算需求
- 命题 3: 系统化的数据构建方法(自动标注 + 困难样本挖掘 + 数据合成)能够为高效鲁棒的文档解析提供坚实的训练数据基础
2. 研究设计与方法 (Methodology)
2.1. 研究范式与方法论 (Research Paradigm & Methodology)
本研究采用系统构建式研究方法,包含三个核心组成部分:
- 架构设计:提出两阶段文档解析架构,将复杂任务分解为布局分析和元素识别两个子任务
- 数据构建:开发系统化的训练数据构建 pipeline,包括自动标注、困难样本挖掘和数据合成
- 实验验证:在多个公开基准和内部基准上进行全面评估,对比现有 SOTA 方法
2.2. 数据来源与样本 (Data Source & Sample)
训练数据规模:超过 3000 万训练样本
数据来源(四个主要来源):
开源数据集:
- 文本:CASIA-HWDB [29]
- 公式:UniMER-1M [30]、MathWriting [31]
- 图表:ChartQA [32]、PlotQA [33]、Chart2Text [34]、DVQA [35]、Unichart [36]、Beagle [37]、ChartINFO [38]、visText [39]、ExcelChart [40]
数据合成:针对公共数据分布不均衡问题,采用数据合成策略低成本生成缺失数据类型
网络可访问数据:从互联网收集大量公开文档,包括学术论文、报纸、科学期刊、扫描手写文档、试卷、幻灯片等
内部数据集:百度多年 OCR 研究积累的多样化数据集
评估数据集:
- OmniDocBench v1.0/v1.5 [16]
- olmOCR-Bench [12]
- In-house-OCR(109 种语言,107,452 样本)
- Ocean-OCR-Handwritten(400 样本)
- In-house-Table(20 种表格类型)
- In-house-Formula(34,816 样本)
- In-house-Chart(1,801 样本,11 种图表类型)
2.3. 操作化与测量 (Operationalization & Measurement)
架构组件:
PP-DocLayoutV2(布局分析模型):
- RT-DETR [17] 用于元素定位和分类
- Pointer Network [18](6 层 transformer)用于阅读顺序预测
- 采用两阶段训练策略:先训练 RT-DETR,冻结参数后独立训练 pointer network
PaddleOCR-VL-0.9B(元素识别模型):
- 视觉编码器:NaViT-style [15] 动态分辨率编码器(初始化自 Keye-VL [22])
- 投影层:2 层 MLP(随机初始化,GELU 激活,merge size=2)
- 语言模型:ERNIE-4.5-0.3B [5](开源轻量级模型)
- 位置编码:3D-RoPE [24]
训练设置(表 1):
| 阶段 | 训练样本 | 最大分辨率 | 序列长度 | 可训练组件 | 批次大小 | 最大学习率 | 最小学习率 | 轮次 |
|---|---|---|---|---|---|---|---|---|
| Stage 1 | 29M | 1280×28×28 | 16384 | 全部 | 128 | 5×10⁻⁵ | 5×10⁻⁶ | 1 |
| Stage 2 | 2.7M | 2048×28×28 | 16384 | 全部 | 128 | 5×10⁻⁶ | 5×10⁻⁷ | 2 |
评估指标:
- 文本识别:Edit Distance(编辑距离)
- 表格识别:TEDS [41](Table Edit Distance Similarity)
- 公式识别:CDM [64](Character Detection Matching)
- 图表识别:RMS-F1 [42]
- 阅读顺序:Reading Order Edit Distance
- 推理性能:Pages/s、Tokens/s、VRAM 使用量
3. 结果与发现 (Results & Findings)
3.1. 主要发现概述 (Overview of Key Findings)
发现 1:PaddleOCR-VL 在页面级文档解析上达到 SOTA 性能
在 OmniDocBench v1.5 基准上(表 2):
- 总体得分:92.86(超越次优模型 MinerU2.5-1.2B 的 90.67)
- Text-Edit 距离:0.035(最低)
- Formula-CDM 得分:91.22(最高)
- Table-TEDS:90.89(最高)
- Reading Order Edit:0.043(最低)
在 OmniDocBench v1.0 基准上(表 3):
- 平均总体编辑距离:0.115(最优)
- 中文表格 TEDS:92.14(最优)
- 中文阅读顺序编辑距离:0.063(最优)
在 olmOCR-Bench 基准上(表 4):
- 总体得分:80.0 ± 1.0(最高)
- ArXiv 类别:85.7(最高)
- Headers and Footers:97.0(最高)
发现 2:PaddleOCR-VL 在元素级识别任务上表现优异
文本识别(表 5、6、7):
- 在 OmniDocBench-OCR-block 的 9 种文档类型中,PaddleOCR-VL 在全部类型上达到最低编辑距离
- 在 109 种语言的 In-house-OCR 评估中,所有语言的编辑距离均为最低
- 在手写识别(Ocean-OCR-Bench)上,英文编辑距离 0.118、中文 0.034,均为 SOTA
表格识别(表 8、9):
- OmniDocBench-Table-block:总体 TEDS 0.9195(最高)
- In-house-Table:总体 TEDS 0.8699(最高)
公式识别(表 10、11):
- OmniDocBench-Formula-block:CDM 0.9453(SOTA)
- In-house-Formula:CDM 0.9882(最高)
图表识别(表 12):
- In-house-Chart:RMS-F1 0.8440(超越 72B 级别多模态大模型)
发现 3:PaddleOCR-VL 具有卓越的推理效率
在 A100 GPU 上的端到端推理性能(表 13):
- FastDeploy 后端:1.6184 pages/s、2486.4 tokens/s
- 页面吞吐量比 MinerU2.5 高 53.1%
- Token 吞吐量比 MinerU2.5 高 50.9%
在不同硬件配置上的稳定表现(表 A2):
- H800:2.2250 pages/s、3416.7 tokens/s
- RTX 4090D:1.1507 pages/s、1768.1 tokens/s
- RTX 3060:0.3641 pages/s、559.5 tokens/s(仍保持可用性)
3.2. 关键数据与图表解读 (Interpretation of Key Data & Figures)
图 1:OmniDocBench v1.0/v1.5 性能对比
- 展示了 PaddleOCR-VL 相对于其他方法的性能优势
- 在两个版本基准上均达到 SOTA
图 2:PaddleOCR-VL 整体架构
- 清晰展示两阶段流程:布局分析 → 元素分割 → 元素识别 → 后处理
- 体现了任务分解的设计思想
图 4:PaddleOCR-VL-0.9B 架构
- 展示了 NaViT 视觉编码器 + MLP 投影 + ERNIE-4.5-0.3B 的组合
- 说明了动态分辨率处理机制
表 2:OmniDocBench v1.5 综合评估
- 关键数据:PaddleOCR-VL 总体得分 92.86,比次优的 MinerU2.5-1.2B(90.67)高 2.19 分
- 揭示了小模型(0.9B)可以在特定任务上超越大模型(如 Qwen2.5-VL-72B 的 87.02 分)
表 13:端到端推理性能对比
- 关键数据:PaddleOCR-VL (FastDeploy) 总时间 605.6 秒,比 MinerU2.5 的 927.3 秒快 34.7%
- 揭示了架构优化和推理引擎优化带来的效率提升
4. 讨论 (Discussion)
4.1. 结果的深度解读 (In-depth Interpretation of Results)
为什么两阶段架构优于纯 end-to-end 方法?
- 任务分解降低复杂度:将文档解析分解为布局分析和元素识别两个子任务,每个子任务可以独立优化
- 避免长序列自回归问题:布局分析模型输出坐标和类别,而非长序列文本,避免了 VLM 在长序列生成中的幻觉和顺序错误
- 灵活性和可扩展性:两阶段架构更容易扩展新的布局类别,无需重新训练整个模型
为什么 0.9B 小模型能超越 72B 大模型?
- 任务特定优化:PaddleOCR-VL 专为文档解析任务设计,而非通用多模态任务
- 动态分辨率处理:NaViT-style 编码器支持任意分辨率输入,无需失真缩放
- 高质量训练数据:3000 万 + 高质量样本,覆盖 109 种语言和多种文档类型
- 两阶段训练策略:先对齐预训练,再指令微调,确保模型充分学习任务特定知识
4.2. 理论贡献 (Theoretical Contributions)
- 验证了两阶段架构在文档解析任务上的有效性:证明了任务分解可以避免纯 end-to-end 方法的固有问题
- 提出了资源高效 VLM 设计范式:展示了在特定任务上,小模型 + 高质量数据 + 架构优化可以超越大模型
- 建立了系统化数据构建方法论:为多模态模型训练数据构建提供了可复用的框架
4.3. 实践启示 (Practical Implications)
对工程师的启示:
- 在实际部署中,应优先考虑任务特定的小模型,而非通用大模型
- 两阶段架构更适合生产环境,具有更好的可控性和可维护性
- FastDeploy 等专用推理引擎可以显著提升性能
对研究者的启示:
- 数据质量比数据数量更重要,系统化数据构建方法值得深入研究
- 动态分辨率处理是处理文档图像的关键技术
- 困难样本挖掘是提升模型鲁棒性的有效手段
对企业的启示:
- PaddleOCR-VL 适合资源受限环境部署,降低基础设施成本
- 支持 109 种语言,适合全球化业务场景
- 可显著提升 RAG 系统性能,改善信息检索质量
4.4. 局限性与未来研究 (Limitations & Future Research)
局限性:
- 评估数据偏差:部分基准(如 OmniDocBench v1.0)存在标注错误,可能影响评估准确性
- 图表识别评估受限:由于数据集规模限制和标注质量问题,图表识别仅在内部基准上评估
- 依赖专家模型:自动标注流程依赖 PP-StructureV3 等专家模型,可能继承其偏差
未来研究方向:
- 端到端优化:探索在保持两阶段优势的同时,实现更紧密的联合优化
- 更大规模多语言支持:扩展至更多语言,特别是低资源语言
- 实时交互能力:支持用户反馈和在线学习,持续提升性能
- 多模态融合:结合音频、视频等多模态信息,实现更丰富的文档理解
5. 结论 (Conclusion)
本研究提出了 PaddleOCR-VL,一种先进的资源高效文档解析模型。其核心组件 PaddleOCR-VL-0.9B 采用 NaViT-style 视觉编码器和 ERNIE-4.5-0.3B 语言模型,能够准确识别文本、表格、公式和图表等复杂元素,支持 109 种语言。
通过全面评估,PaddleOCR-VL 在多个公开基准上达到 SOTA 性能,同时保持快速推理和低资源消耗,适合实际部署。其两阶段架构设计、系统化数据构建方法和资源高效优化策略,为多模态文档处理技术的发展提供了重要参考。
PaddleOCR-VL 的广泛应用将显著提升 RAG 系统性能,使从复杂文档中提取信息更加高效,为未来 AI 应用提供更可靠的数据支持。
6. 核心参考文献 (Core References)
MinerU2.5: Junbo Niu, et al. "Mineru2.5: A decoupled vision-language model for efficient high-resolution document parsing." arXiv preprint arXiv:2509.22186, 2025.
Qwen2.5-VL: Shuai Bai, et al. "Qwen2.5-VL Technical Report." arXiv preprint arXiv:2502.13923, 2025.
NaViT: Mostafa Dehghani, et al. "Patch n'pack: Navit, a vision transformer for any aspect ratio and resolution." NeurIPS 36, 2023.
OmniDocBench: Linke Ouyang, et al. "Omnidocbench: Benchmarking diverse pdf document parsing with comprehensive annotations." CVPR 2025.
ERNIE 4.5: Baidu-ERNIE-Team. "Ernie 4.5 Technical Report." 2025.
Part B: 核心逻辑链与根本价值提炼
核心四要素
| 要素 | 内容 |
|---|---|
| 根本问题 | 现有文档解析方法面临两难困境:Pipeline 方法性能强但集成复杂、误差累积;End-to-end VLM 方法简化流程但计算开销大、易产生幻觉。如何在保持高性能的同时实现资源高效和实际可部署? |
| 切入视角 | 将文档解析任务分解为两个独立阶段:布局分析(定位 + 阅读顺序)和元素识别。布局分析用专用轻量模型处理,避免 VLM 长序列生成的固有问题;元素识别用紧凑 VLM 处理,专注内容理解。两阶段各司其职,互不干扰。 |
| 关键方法 | (1) PP-DocLayoutV2:RT-DETR + Pointer Network,负责布局检测和阅读顺序预测;(2) PaddleOCR-VL-0.9B:NaViT 动态分辨率视觉编码器 + ERNIE-4.5-0.3B 轻量语言模型;(3) 系统化数据构建:自动标注 + 困难样本挖掘 + 数据合成,构建 3000 万 + 高质量样本。 |
| 核心发现 | 在 OmniDocBench v1.5 上达到 92.86 分(SOTA),超越 MinerU2.5-1.2B 的 90.67 分和 Qwen2.5-VL-72B 的 87.02 分。推理速度比 MinerU2.5 快 53.1%,支持 109 种语言。证明了 0.9B 小模型在特定任务上可以超越 72B 大模型。 |
方法公式化
可靠文档解析 = (两阶段任务分解 × 动态分辨率视觉编码) + (轻量语言模型 + 高质量数据构建)
或者更具体地:
PaddleOCR-VL = (PP-DocLayoutV2[布局 + 顺序] → PaddleOCR-VL-0.9B[元素识别]) × 30M 高质量数据
最终双重总结
一句话总结(核心价值):PaddleOCR-VL 通过将文档解析分解为布局分析和元素识别两个阶段,结合 NaViT 动态分辨率视觉编码器和 ERNIE-4.5-0.3B 轻量语言模型,在保持 0.9B 超紧凑参数量的同时,在多个基准上达到 SOTA 性能,推理速度比现有最优方法快 53.1%,支持 109 种语言,为资源受限环境下的多模态文档解析提供了实用解决方案。
一句话总结(大白话版):就像把"看懂一页纸"这件事拆成两步——先用小模型快速找出页面上的文字块、表格、图片都在哪、应该按什么顺序读,再用一个专门训练过的小模型逐个识别这些内容,这样既快又准,还省资源,比那些试图一步到位的大模型更靠谱。