大模型“查无此人”之谜：MiniMax 深度复盘马嘉祺消失的技术真相

1,674 0

# 大模型“查无此人”之谜：MiniMax 深度复盘马嘉祺消失的技术真相

近期，大模型领域出现了一个颇具戏剧性的现象：当用户向多个主流大模型询问“马嘉祺”时，部分模型竟给出了“查无此人”或“无法确认”的回应。作为国内头部AI公司，MiniMax 在内部复盘中揭示了这一“消失”背后的技术逻辑——它并非简单的知识遗漏，而是模型知识边界、数据时效性与参数化记忆之间多重博弈的必然结果。

## 一、知识截止日期与“冷门”衰减

大模型的知识来源于训练数据，而训练数据通常存在明确的截止日期。马嘉祺作为新生代艺人，其知名度与数据密度在2023年后才显著上升。若模型训练集截止于2022年底，且该阶段相关语料占比不足，模型便可能在参数化记忆中“遗忘”该实体。MiniMax 的复盘指出，对于长尾实体，模型并非真正“记住”所有知识，而是通过统计概率进行推断——当上下文线索不足时，概率低于阈值就会被判定为“不存在”。

## 二、Token化与注意力机制的盲区

更深层的原因在于模型对中文人名Token化处理的固有缺陷。“马嘉祺”三个字在分词时可能被拆解为“马”“嘉”“祺”或“马嘉”“祺”，导致在注意力机制中，跨Token的关联性被稀释。尤其当训练语料中该姓名出现频次较低时，模型难以将三个Token视为一个完整实体。MiniMax 的技术报告显示，在内部测试中，将“马嘉祺”替换为“马嘉祺（时代少年团成员）”后，模型回答准确率提升了37%，说明上下文补全能有效激活被“埋没”的实体。

## 三、隐私过滤与安全策略的误伤

另一个常被忽视的维度是安全过滤机制。为防范模型生成关于真实人物的不当内容，部分大模型会内置“隐私保护层”，对特定实体进行模糊化处理。若马嘉祺的姓名被错误匹配到高风险词表（例如与某敏感事件关联），则可能被系统主动屏蔽。MiniMax 在复盘中发现，其早期版本曾因过度泛化的“名人保护规则”，误将部分非敏感艺人标记为“不可提及”，这一Bug已在后续版本中通过更细粒度的实体识别得到修复。

## 四、技术启示：从“查无此人”到“知识可信”

马嘉祺“消失”事件实际上是整个大模型行业面临的共性挑战：知识边界如何动态更新？长尾实体如何避免被“遗忘”？MiniMax 的应对策略包括引入检索增强生成（RAG）机制，在推理阶段实时检索外部知识库，以及构建实体级的记忆衰减补偿算法。这一案例也提醒行业：大模型并非“全知全能”，其知识完整性依赖于数据质量、编码策略与安全策略的精细平衡。当用户遇到“查无此人”时，背后往往是技术架构中多个环节的共同失误，而非简单的“模型不够聪明”。