稀疏人力监督下的交互多保真度学习,实现经济有效的语言模型适应
原文中文,约300字,阅读约需1分钟。发表于: 。我们提出了一种新颖的交互式多保真度学习(IMFL)框架,用于在有限标注预算下以低成本开发小型领域特定的大语言模型,通过平衡低保真度自动标注和高保真度人工标注之间的最佳获取策略,杂质高显学习先进医学和金融任务,在有限的人工标注预算下,IMFL 比人工标注基线在所有四个任务中表现出更好的性能,其中两个任务的性能接近人工标注。
本文提出了一种用户可控机制,通过在 LLM 训练的微调阶段引入一个代表生成回答中对参考知识忠实程度的数值标签,用户可以操作这一数值标签来控制 LLM 对外部知识的依赖程度。实验证明该方法适用且有效,能够增强 LLM 的多功能性同时保持创造性和准确性平衡。