机器反学习

最新研究揭示，针对大型语言模型（LLM）进行的对齐微调（Alignment Fine-tuning），反而会像“打地鼠”一样，意外激活模型内部被抑制的版权书籍记忆，导致模型在处理特定指令时更容易泄露受版权保护的内容。重点摘要：记忆的幽灵：研究发现，预训练阶段通过海量数据习得的知识并未消失，只是被隐蔽存储。微调过程中的权重更新，往往会无意中降低了模型对版权内容的抑制阈值。对齐失效：原本旨在让模型“不输出版权内容”的对齐手段，在面对特定诱导指令时表现出脆弱性，微调后的模型反而比基座模型更容易精确复现版权文本。不可逆性：这种记忆激活在微调后呈现出一定的鲁棒性，简单的提示词过滤或拒绝指令难以完全掩盖这些被“唤醒”的版权记忆。中国视角：这一发现对国内 AI 厂商敲响了警钟。随着国内大模型向垂直领域深耕，微调已成常态，但“数据合规”往往只关注预训练阶段。如果微调过程缺乏对版权数据的严格过滤与审计，模型在商业化落地（如法律、出版、教育辅助）中极易产生侵权风险。国内从业者需意识到，对齐不等于清洗，单纯的指令微调无法从根源上抹除模型对版权数据的“暗记忆”。行动建议：建议在微调数据集构建阶段引入“版权水印”检测机制；在评估体系中增加“版权泄露测试集”；同时，考虑采用参数高效微调（PEFT）技术，并严格控制微调数据的版权合规性，而非仅仅依赖后期的对齐策略。原文链接：点击查看研究详情

对齐打地鼠：微调激活了大型语言模型对版权书籍的记忆

BAGUA AI