字节跳动与港科大联合发布MMProLong:长文档LMM训练问答对效率显著超越OCR转录

AI资讯12小时前发布 全启星小编
137 0

# 字节跳动与港科大联合发布MMProLong:长文档LMM训练问答对效率显著超越OCR转录

**一、研究背景与痛点**

在大型多模态模型(LMM)的训练中,高质量长文档问答对的构建长期依赖OCR转录流程——先通过光学字符识别提取文本,再基于文本生成问答对。这一范式存在两大瓶颈:一是OCR对于排版复杂、手写模糊、多栏混排的长文档(如古籍、技术手册、财务报表)准确率大幅下降;二是文本化过程中丢失了原始图像中的版面结构、字体强调、图表对应关系等关键多模态信息,导致生成的问答对语义空洞或与视觉上下文脱节。

**二、MMProProLong的核心创新**

字节跳动与香港科技大学联合提出的MMProLong,是一种直接面向“文档图像→问答对”的端到端训练数据生成框架。它跳过了OCR转录步骤,利用视觉语言模型(VLM)的跨模态对齐能力,直接从长文档图像中理解文本、表格、标题层级和图表标注,并基于这些多模态信息生成高信息密度的问答对。其关键技术包括:
– **长上下文窗嵌入**:针对超过4000 tokens的超长文档图像,设计分块注意力机制与视觉标记压缩策略,使模型能处理整页PDF级别的输入而不丢失细节。
– **多层级多模态理解**:不仅识别文字,更解析段落关系、列表结构、图表标题与正文的关联,从而生成涉及“比较”、“推理”、“总结”等复杂认知类问答。
– **噪声鲁棒训练**:引入文档图像常见退化(模糊、倾斜、遮挡)的数据增强,使生成的问答对泛化能力更强。

**三、性能与意义**

在公开基准测试中,MMProLong生成的问答对用于微调LMM后,模型在DocVQA、ChartQA等文档理解任务上的准确率相比基于OCR转录数据训练的基线提升12%-18%,且问答对的生成速度提高约3.5倍(因省去OCR流水线)。更重要的是,对于包含手写批注、水印或复杂排版的非结构化文档,MMProLong的问答对质量显著优于OCR方法,证明了其“视觉级理解”优于“文本级提取”的路线优势。

这一工作为长文档领域的高效数据构建提供了新范式:未来,金融合规审查、学术文献自动问答、法律文书分析等场景,有望直接利用MMProLong从原始扫描件中快速获得高质量的监督信号,降低对人工标注和规则管线的依赖。

相关文章