视觉大模型受挫:首个中国古文字OCR评测基准发布

# 首个中国古文字OCR评测基准发布:视觉大模型遭遇“文字战”困境

近日,由国内多所高校与甲骨文研究机构联合发布的 **“C-OCR 2025”** 评测基准,首次系统性地对中国古文字(涵盖甲骨文、金文、简帛文字及部分篆书)进行了光学字符识别(OCR)能力测评。结果令人意外:当前主流的视觉大模型(如GPT-4V、Gemini Pro Vision等)在该基准上的平均准确率不足15%,远低于现代印刷体OCR 98%以上的表现。这一数据直接揭示了视觉大模型在“跨时空文字理解”上的重大短板。

**古文字OCR的难点在于其“活”的非标准化特征。** 与规整的现代印刷体不同,古文字字形高度依赖刻写工具、材质与时代背景。例如,同一甲骨文字的笔画可能因龟甲裂纹而断裂,或因刻工手法不同产生数种变体;金文则受限于铸造时的流变,出现“一字多形”甚至“形近字混淆”。传统OCR依赖的轮廓匹配、端到端序列识别等范式,在面对这些“无规律”的拓扑变形时几乎失效。而视觉大模型虽具备强大的泛化能力,但其训练数据几乎全部基于现代文字(英文、汉字标准字体),缺乏对古文字“形态语义”的底层编码——模型往往将残缺笔画误判为噪点,或将结构相似的“王”与“玉”错误对应。

**该基准的发布具有双重意义。** 从技术层面看,它为古文字数字化提供了可复现的评测标准,迫使研究界反思当前视觉模型在“低资源、高变异”场景下的脆弱性:仅依靠数据量堆砌无法解决古文字的认知问题,未来可能需要引入**笔画分解+知识图谱**混合架构,或借鉴甲骨学专家的“偏旁分析法”来构建可解释的视觉特征。从行业层面看,这一结果也警示了“大模型万能论”的边界——在处理具有高度文化专属性与时空异质性的任务时,通用模型必须与领域知识深度耦合。中国古文字OCR的突破,或许将开启视觉模型从“像素匹配”走向“文化推理”的新阶段。

相关文章