视觉大模型受挫：首个中国古文字OCR评测基准发布

1,674 0

# 首个中国古文字OCR评测基准发布：视觉大模型遭遇“文字战”困境

近日，由国内多所高校与甲骨文研究机构联合发布的 **“C-OCR 2025”** 评测基准，首次系统性地对中国古文字（涵盖甲骨文、金文、简帛文字及部分篆书）进行了光学字符识别（OCR）能力测评。结果令人意外：当前主流的视觉大模型（如GPT-4V、Gemini Pro Vision等）在该基准上的平均准确率不足15%，远低于现代印刷体OCR 98%以上的表现。这一数据直接揭示了视觉大模型在“跨时空文字理解”上的重大短板。

**古文字OCR的难点在于其“活”的非标准化特征。** 与规整的现代印刷体不同，古文字字形高度依赖刻写工具、材质与时代背景。例如，同一甲骨文字的笔画可能因龟甲裂纹而断裂，或因刻工手法不同产生数种变体；金文则受限于铸造时的流变，出现“一字多形”甚至“形近字混淆”。传统OCR依赖的轮廓匹配、端到端序列识别等范式，在面对这些“无规律”的拓扑变形时几乎失效。而视觉大模型虽具备强大的泛化能力，但其训练数据几乎全部基于现代文字（英文、汉字标准字体），缺乏对古文字“形态语义”的底层编码——模型往往将残缺笔画误判为噪点，或将结构相似的“王”与“玉”错误对应。

**该基准的发布具有双重意义。** 从技术层面看，它为古文字数字化提供了可复现的评测标准，迫使研究界反思当前视觉模型在“低资源、高变异”场景下的脆弱性：仅依靠数据量堆砌无法解决古文字的认知问题，未来可能需要引入**笔画分解+知识图谱**混合架构，或借鉴甲骨学专家的“偏旁分析法”来构建可解释的视觉特征。从行业层面看，这一结果也警示了“大模型万能论”的边界——在处理具有高度文化专属性与时空异质性的任务时，通用模型必须与领域知识深度耦合。中国古文字OCR的突破，或许将开启视觉模型从“像素匹配”走向“文化推理”的新阶段。

AI资讯

视觉大模型受挫：首个中国古文字OCR评测基准发布

Google AI Studio 移动应用已上线 Google Play，开放预注册

谷歌与DeepMind联合推出Gemini Flash3.5驱动的交互式搜索，重新定义网络入口

相关文章

全球首个AI智能体勒索攻击现身：无需人工介入的自动化犯罪链条

京东推出JoyEgoCam超高清采集终端打造具身智能训练闭环系统

Claude 代码风波：深度解析顶尖 AI Agent 的五重架构与生存之道

阶跃星辰推出StepAudio 2.5 Realtime：让大模型拥有真人般的情感与智慧

最新资讯

视觉大模型受挫：首个中国古文字OCR评测基准发布

Google AI Studio 移动应用已上线 Google Play，开放预注册

谷歌与DeepMind联合推出Gemini Flash3.5驱动的交互式搜索，重新定义网络入口

相关文章

全球首个AI智能体勒索攻击现身：无需人工介入的自动化犯罪链条

京东推出JoyEgoCam超高清采集终端 打造具身智能训练闭环系统

Claude 代码风波：深度解析顶尖 AI Agent 的五重架构与生存之道

阶跃星辰推出StepAudio 2.5 Realtime：让大模型拥有真人般的情感与智慧

最新资讯

京东推出JoyEgoCam超高清采集终端打造具身智能训练闭环系统