前OpenAI安全VP翁荔拖更三年万字长文,拆解Scaling Laws:你的模型可能数据喂错了
近日,前OpenAI安全与政策副总裁翁荔(Lilian Weng)在个人博客发布了一篇万字长文,系统性地拆解了Scaling Laws(规模定律)的局限性。这是她离开OpenAI后近三年来的首次深度技术输出,甫一发布便引起AI社区的广泛关注。文章的核心观点大胆而尖锐:许多团队在追求更大模型、更多数据的过程中,可能正在“喂错数据”,导致规模收益递减甚至产生反效果。
规模定律的“盲点”:数据质量而非数量
翁荔指出,传统的Scaling Laws强调模型性能随参数、算力和数据规模的幂律增长,但这一规律建立在“数据同质且高质量”的隐含假设之上。现实中,互联网爬取的数据充斥着噪声、偏见、重复和低质量片段。她通过大量实验证明,当数据规模扩展时,若未对分布进行严格清洗和平衡,模型的错误关联反而会被放大,表现为“能力提升缓慢但有害行为指数级增长”。例如,在安全对齐任务中,低质量数据中的有毒样本比例上升,会直接削弱模型的拒绝能力。
数据分布与“长尾失效”的新解
文章进一步拆解了数据分布对Scaling效率的影响。翁荔引入了“数据覆盖度-压缩率”框架,指出当前主流做法过度关注高频常见样本,忽视了长尾但关键的边缘案例(如极端安全场景、罕见伦理困境)。模型在高频数据上的loss持续下降,但在长尾分布上的loss可能不降反升。她警告,这种“假性收敛”是许多模型在安全评测中表现优秀、真实部署却频发事故的根本原因——因为评测集本身也未能覆盖真实世界的长尾。
对行业的启示:从“堆料”到“精炼”
这篇万字长文的发表,正值业界对Scaling Law的“天花板”争论白热化之际。翁荔的观点实际上给出了一个中间路线:Scaling本身并非无意义,但其收益取决于数据供应链的精细化管理。她建议研究者在扩展规模前,先做两件事:一是建立动态数据质量监控体系,二是主动设计针对长尾场景的合成数据策略。否则,单纯增加参数和算力,只能让模型在错误的道路上跑得更快。
翁荔的这篇文章,不仅是对OpenAI内部Scaling实践的深刻反思,也为整个行业敲响了警钟——在追求更大的模型时,或许我们最该问的不是“还能加多少数据”,而是“当前的数据到底在教模型什么”。