字节跳动与港科大联合发布MMProLong：长文档LMM训练问答对效率显著超越OCR转录

2,067 0

# 字节跳动与港科大联合发布MMProLong：长文档LMM训练问答对效率显著超越OCR转录

**一、研究背景与痛点**

在大型多模态模型（LMM）的训练中，高质量长文档问答对的构建长期依赖OCR转录流程——先通过光学字符识别提取文本，再基于文本生成问答对。这一范式存在两大瓶颈：一是OCR对于排版复杂、手写模糊、多栏混排的长文档（如古籍、技术手册、财务报表）准确率大幅下降；二是文本化过程中丢失了原始图像中的版面结构、字体强调、图表对应关系等关键多模态信息，导致生成的问答对语义空洞或与视觉上下文脱节。

**二、MMProProLong的核心创新**

字节跳动与香港科技大学联合提出的MMProLong，是一种直接面向“文档图像→问答对”的端到端训练数据生成框架。它跳过了OCR转录步骤，利用视觉语言模型（VLM）的跨模态对齐能力，直接从长文档图像中理解文本、表格、标题层级和图表标注，并基于这些多模态信息生成高信息密度的问答对。其关键技术包括：
– **长上下文窗嵌入**：针对超过4000 tokens的超长文档图像，设计分块注意力机制与视觉标记压缩策略，使模型能处理整页PDF级别的输入而不丢失细节。
– **多层级多模态理解**：不仅识别文字，更解析段落关系、列表结构、图表标题与正文的关联，从而生成涉及“比较”、“推理”、“总结”等复杂认知类问答。
– **噪声鲁棒训练**：引入文档图像常见退化（模糊、倾斜、遮挡）的数据增强，使生成的问答对泛化能力更强。

**三、性能与意义**

在公开基准测试中，MMProLong生成的问答对用于微调LMM后，模型在DocVQA、ChartQA等文档理解任务上的准确率相比基于OCR转录数据训练的基线提升12%-18%，且问答对的生成速度提高约3.5倍（因省去OCR流水线）。更重要的是，对于包含手写批注、水印或复杂排版的非结构化文档，MMProLong的问答对质量显著优于OCR方法，证明了其“视觉级理解”优于“文本级提取”的路线优势。

这一工作为长文档领域的高效数据构建提供了新范式：未来，金融合规审查、学术文献自动问答、法律文书分析等场景，有望直接利用MMProLong从原始扫描件中快速获得高质量的监督信号，降低对人工标注和规则管线的依赖。