BriefGPT - AI 论文速递 ·

反思基于预训练模型的无需排练连续学习的现状

💡 原文中文，约1700字，阅读约需5分钟。

📝

内容提要

本研究探讨了持续学习系统中不同调优方法的影响，提出了Realistic Continual Learning（RealCL）和CLARE模型，旨在整合新知识并减少遗忘。实验证明，LoRA和特征转换调优（FeTT）等方法能提高准确性和性能，强调了大规模预训练模型在持续学习中的重要性。

🎯

关键要点

未经审查的 Prompt tuning 选择对持续学习系统的整体性能产生负面影响。
使用 LoRA 替代 Prompt tuning 的变体在领域增量和类别增量基准上实现了更高的准确性。
提出了 Realistic Continual Learning（RealCL）范式，任务之间的类分布是随机的。
引入了 CLARE 预训练模型，旨在在保留过去学习的同时整合新知识。
通过知识蒸馏和参数正则化的组合，实现了无需回忆的连续学习，避免遗忘。
无先验连续学习（PFCL）方法在三种学习情景中显著减少遗忘现象。
特征转换调优（FeTT）模型通过非参数化微调骨干特征，改善了模型性能。
对基于预训练模型的持续学习方法进行了分类和比较分析，强调了公平性。
提出了一种简明有效的使用预训练模型进行 CL 的方法，减少了最终错误率。
基础语言模型在自然语言处理和计算机视觉领域取得了重要成就，但仍面临灾难性遗忘问题。

❓

延伸问答

什么是Realistic Continual Learning（RealCL）？

Realistic Continual Learning（RealCL）是一种新的连续学习范式，其中任务之间的类分布是随机的，旨在整合新知识并减少遗忘。

LoRA在持续学习中有什么优势？

LoRA替代Prompt tuning的变体在领域增量和类别增量基准上实现了更高的准确性，同时保持相似的推理速度。

CLARE模型的主要功能是什么？

CLARE模型旨在在保留过去学习的同时整合新知识，经过实验证明其在各种RealCL场景中的有效性和优越性。

什么是特征转换调优（FeTT）模型？

特征转换调优（FeTT）模型通过非参数化微调骨干特征，实现对所有任务的独立操作，并改善模型性能。

无先验连续学习（PFCL）方法的优势是什么？

PFCL方法在三种学习情景中显著减少遗忘现象，并且与有限个先前样本重新训练的方法相比，取得了有竞争力的准确率。

基于预训练模型的持续学习面临哪些挑战？

基于预训练模型的持续学习面临灾难性遗忘的问题，导致模型无法有效地适应新任务而不遗忘以前的知识。

🏷️

继续阅读

智源&清华合作成果登上Science：脑科学多模态基础模型Brainμ支撑揭示“记忆-睡眠”调控的神经机制
研究表明，睡眠中的记忆重激活影响睡眠动态，提供了“记忆-睡眠”双向作用的新证据。智源研究院与清华大学的研究发现，负向记忆再激活加剧睡眠碎片化，而正向记忆再...
全球首个机器人训练楼盘开盘：30万套中国住宅，机器人拎包入住
大晓机器人与港中文MMLab推出Kairos-Homeworld，这是首个全屋三维生成与物体级交互框架，利用30万套中国住宅户型数据为机器人提供训练环境。...
MiniCPM5-1B采用RL+OPD训练，多项复杂任务达SOTA；面向复杂医疗业务自动化：医疗智能体评测数据集 CHI-Bench
TACK 是 AI Laboratory for Molecular Engineering 于 2026 年发布的一个标准化知识库数据集与基准测试集，旨...
基于220种海洋细菌，科学家用基因组尺度模型重构异养微生物分类体系，挖出8类代谢菌群
研究揭示海洋异养微生物的代谢生态位，打破传统的富营养型与寡营养型二分法，提出8类代谢菌群。通过基因组分析，阐明其生长规律与资源竞争，推动全球碳循环研究，为...
微软MAI模型发布深度解读：前沿微调成企业AI护城河
微软在2026年推出的MAI系列模型标志着其从依赖OpenAI转向自建AI模型的战略转变。MAI模型涵盖推理、编码、图像和语音等多个领域，特别是通过“前沿...
开始在 Amazon Bedrock 上使用 OpenAI GPT-5.5、GPT-5.4 模型和 Codex
OpenAI的GPT-5.5和GPT-5.4模型以及Codex已在Amazon Bedrock平台上线。这些模型专注于代码编写和复杂工作流程，支持开发者通...