量子位 ·

大模型“记性差一点”反而更聪明！金鱼损失随机剔除token，让AI不再死记硬背

💡 原文中文，约1900字，阅读约需5分钟。

📝

内容提要

研究表明，采用“金鱼损失”方法训练大模型，可以减少模型对训练数据的记忆，提高智能。该方法通过随机剔除部分token，防止逐字复现内容，同时保持文本流畅性。实验结果显示，金鱼损失显著降低了模型记忆化程度，且性能未受影响。

🎯

关键要点

研究表明，金鱼损失方法可以减少大模型对训练数据的记忆，提高智能。
金鱼损失通过随机剔除部分token，防止模型逐字复现内容，同时保持文本流畅性。
实验结果显示，使用金鱼损失后，模型记忆化内容显著减少，且下游任务性能未受影响。
金鱼损失的核心理念是在训练过程中随机剔除部分tokens，使其不参与损失计算。
与传统的正则化方法不同，金鱼损失使用哈希掩码确保每次遇到同一段落时，掩盖位置一致。
实验表明，在极端场景下，金鱼损失没有记忆任何文章，而标准训练导致模型逐字记忆了84篇文章。
金鱼损失模型与标准损失模型之间的总体性能没有系统性差异，但可能导致计算效率下降。

❓

延伸问答

什么是金鱼损失方法？

金鱼损失是一种训练大模型的方法，通过随机剔除部分token，防止模型逐字复现训练数据，从而提高智能。

金鱼损失如何提高模型智能？

金鱼损失通过减少模型对训练数据的记忆，使其能够更好地学习语言规律，而不是死记硬背。

金鱼损失与传统正则化方法有什么不同？

金鱼损失使用哈希掩码确保每次遇到同一段落时，剔除token的位置一致，而传统正则化方法如Dropout则随机丢弃token，可能导致模型仍能拼凑出完整段落。

实验结果显示金鱼损失的效果如何？

实验表明，金鱼损失显著降低了模型的记忆化程度，且在下游任务中性能几乎不受影响。

金鱼损失会影响模型的计算效率吗？

是的，金鱼损失可能导致计算效率下降，因为模型需要通过更多数据来补偿被忽略的token。

金鱼损失在极端场景下的表现如何？

在极端场景下，金鱼损失没有记忆任何文章，而标准训练导致模型逐字记忆了84篇文章。

🏷️

继续阅读

构建新一代 AI Token 算力服务平台：KeyCompute 技术架构剖析
KeyCompute 是一个 AI Token 算力服务平台，旨在帮助中小企业和开发者管理多模型混用、账号池和计费等复杂链路。该平台使用 Rust 语言构...
在AI工作负载时代如何确保Kubernetes的安全性
Kubernetes的安全性因AI工作负载而变得复杂，传统的集群安全措施已无法应对动态流量。Azure Kubernetes Service（AKS）通过...
Asana称其新的AI“首席助理”将您的Slack混乱转化为可追踪的工作
Asana在伦敦的工作创新峰会上推出了名为Dash的AI助手，旨在提升工作管理平台的效率。Dash能够从会议、Slack和邮件中捕捉待办事项，并将其转化为...
Kaggle 使 AI 基准创建变得轻而易举
Kaggle Benchmarks推出本地开发功能，允许开发者在本地环境中创建和验证评估任务。该功能支持使用AI编码代理通过自然语言构建任务，旨在加速AI...
教你薅token（二）：构建agent无关的skills管理工作流
本文介绍了pks（个人技能管理器），一个用纯bash编写的工具，旨在管理AI工作流文档。pks允许用户集中管理特定项目的技能，如编码规范和API设计，并按...
让我们过滤AI垃圾，你们这些懦夫
在线平台应提供过滤选项，以帮助用户避免看到AI生成的内容。目前，尽管一些平台已开始标记AI内容，但用户仍难以有效过滤这些内容，许多公司未能回应用户对过滤功...