百度文心推出PaddleOCR-VL-1.6：准确率超96.33%，刷新文档解析最佳纪录

2,502 0

技术突破：从OCR到端到端文档理解

近日，百度文心团队正式发布 **PaddleOCR-VL-1.6**，这是一个面向复杂文档场景的视觉语言模型。该模型在权威文档解析基准测试中取得 **准确率超过96.33%** 的成绩，一举刷新了业界最佳纪录。与传统的OCR（光学字符识别）方案不同，PaddleOCR-VL-1.6 并非简单的“文字提取+后处理”流水线，而是采用 **端到端的视觉-语言联合建模** 架构，能够同时理解文字内容、版面布局、表格结构及语义关系，实现了从“看得清”到“读得懂”的质变。

核心能力：复杂版面下的高鲁棒性解析

PaddleOCR-VL-1.6 的突出优势在于对 **非结构化、多语言、密集排版** 等真实场景文档的强适应力。无论是带有水印、印章的发票，还是含有数学公式、手写批注的学术论文，该模型均能保持稳定的高精度输出。其准确率提升主要归功于两项创新：一是 **多尺度特征融合模块**，可同时捕获字符级细节与段落级上下文；二是 **自监督预训练策略**，利用海量无标注文档进行对比学习，大幅降低了对人工标注数据的依赖。

行业意义：文档智能化的关键基础设施

当前，企业数字化转型面临的最大瓶颈之一便是 **非结构化文档的处理效率**。传统OCR在表格识别、版面还原等任务上常出现错误，而PaddleOCR-VL-1.6的发布意味着：**金融票据稽核、医疗病历结构化、法律合同比对、古籍数字化** 等场景有望实现接近人工精度的自动化处理。尤其值得关注的是，该模型已集成至百度飞桨生态，开发者可通过PaddleOCR工具库直接调用，降低了企业级应用的门槛。

未来展望：向多模态智能文档助手演进

准确率突破96.33%不仅是一个数字里程碑，更标志着 **文档解析技术已进入“可用与好用并存”的新阶段**。接下来，百度文心团队计划将PaddleOCR-VL-1.6的底层视觉能力与文心大模型的推理能力结合，打造能够 **理解文档意图、自动生成摘要、执行跨文档查询** 的智能助手。从“识别”到“理解”再到“决策”，这场关于文档智能的技术迭代才刚刚开始。