前OpenAI安全VP翁荔拖更三年万字长文，拆解Scaling Laws：你的模型可能数据喂错了

近日，前OpenAI安全与政策副总裁翁荔（Lilian Weng）在个人博客发布了一篇万字长文，系统性地拆解了Scaling Laws（规模定律）的局限性。这是她离开OpenAI后近三年来的首次深度技术输出，甫一发布便引起AI社区的广泛关注。文章的核心观点大胆而尖锐：许多团队在追求更大模型、更多数据的过程中，可能正在“喂错数据”，导致规模收益递减甚至产生反效果。

规模定律的“盲点”：数据质量而非数量

翁荔指出，传统的Scaling Laws强调模型性能随参数、算力和数据规模的幂律增长，但这一规律建立在“数据同质且高质量”的隐含假设之上。现实中，互联网爬取的数据充斥着噪声、偏见、重复和低质量片段。她通过大量实验证明，当数据规模扩展时，若未对分布进行严格清洗和平衡，模型的错误关联反而会被放大，表现为“能力提升缓慢但有害行为指数级增长”。例如，在安全对齐任务中，低质量数据中的有毒样本比例上升，会直接削弱模型的拒绝能力。

数据分布与“长尾失效”的新解

文章进一步拆解了数据分布对Scaling效率的影响。翁荔引入了“数据覆盖度-压缩率”框架，指出当前主流做法过度关注高频常见样本，忽视了长尾但关键的边缘案例（如极端安全场景、罕见伦理困境）。模型在高频数据上的loss持续下降，但在长尾分布上的loss可能不降反升。她警告，这种“假性收敛”是许多模型在安全评测中表现优秀、真实部署却频发事故的根本原因——因为评测集本身也未能覆盖真实世界的长尾。

对行业的启示：从“堆料”到“精炼”

这篇万字长文的发表，正值业界对Scaling Law的“天花板”争论白热化之际。翁荔的观点实际上给出了一个中间路线：Scaling本身并非无意义，但其收益取决于数据供应链的精细化管理。她建议研究者在扩展规模前，先做两件事：一是建立动态数据质量监控体系，二是主动设计针对长尾场景的合成数据策略。否则，单纯增加参数和算力，只能让模型在错误的道路上跑得更快。

翁荔的这篇文章，不仅是对OpenAI内部Scaling实践的深刻反思，也为整个行业敲响了警钟——在追求更大的模型时，或许我们最该问的不是“还能加多少数据”，而是“当前的数据到底在教模型什么”。