多家出版商起诉Meta：AI训练被指侵权

1,718 0

事件概述

近日，包括普林斯顿大学出版社、剑桥大学出版社、麦克米伦教育等在内的多家知名出版商联合向美国联邦法院提起诉讼，指控Meta（Facebook母公司）在未经授权的情况下，使用其受版权保护的图书内容训练大型语言模型（LLM），构成大规模版权侵权。这是继《纽约时报》起诉OpenAI之后，又一起针对AI巨头的数据合规重磅诉讼。

诉讼核心争议

原告方指出，Meta在开发其开源大模型Llama系列时，从“Books3”等盗版数据集（该数据集包含约19.5万本书籍，多数来自盗版网站Bibliotik）中提取了大量受版权保护的学术专著、教材和文学作品。这些出版商声称，Meta不仅未经许可复制其作品用于训练，还通过模型输出保留了这些内容的“衍生价值”，例如模型能够生成与原文高度相似的摘要或段落，直接侵害了原作者的演绎权与复制权。

法律与行业影响

从法律层面看，本案的核心在于**“合理使用”（fair use）原则的边界**。Meta极有可能援引此前谷歌图书案（Authors Guild v. Google）的先例，主张其训练行为属于“转换性使用”——即并非简单复制原文，而是提取语言模式用于生成新内容。然而，出版商的反驳焦点在于：Meta的商业性质（通过开源模型间接获得广告与云服务收益）、对原作品市场的替代效应（例如学生可能直接向AI提问而不再购买正版教材），以及数据集来源的明显违法性（Books3本身即为盗版）。这三项因素均可能削弱“合理使用”的辩护力度。

行业启示

此案若最终判决不利于AI公司，将迫使整个行业重新审视训练数据的合法性。目前，Meta、OpenAI等企业已开始与大型出版商签署授权协议（如OpenAI与施普林格·自然的合作），但中小出版商与个体作者仍处于弱势地位。**数据产权的“定价机制”与“集体许可模式”**或将成为未来AI治理的关键议题。此外，开源模型的版权风险尤为突出——Llama系列因被广泛下载，其侵权行为的“传染性”可能使下游开发者同样面临诉讼。

结语

出版商起诉Meta不仅是法律纠纷，更是对“AI时代知识生产价值分配”的拷问。当机器学会“阅读”人类全部知识时，版权法的天平如何在创新激励与产权保护之间平衡，将决定未来十年内容产业的生态格局。