稀疏人力监督下的交互多保真度学习,实现经济有效的语言模型适应

BriefGPT - AI 论文速递 BriefGPT - AI 论文速递 ·

本文提出了一种用户可控机制,通过在 LLM 训练的微调阶段引入一个代表生成回答中对参考知识忠实程度的数值标签,用户可以操作这一数值标签来控制 LLM 对外部知识的依赖程度。实验证明该方法适用且有效,能够增强 LLM 的多功能性同时保持创造性和准确性平衡。

原文中文,约300字,阅读约需1分钟。
阅读原文