本研究实证分析了大型语言模型在多对多摘要中的表现,整理了八个领域的数据集,测试了18种LLMs,结果显示经过指令调优的开源LLMs在M2MS能力上优于零-shot LLMs,但事实准确性仍需提升。
本研究提出了一种新方法ICon,克服了现有数据选择在指令调优中的局限性。实验结果表明,ICon选择的15%数据训练模型的性能超过使用全数据集,显示出其高效性和有效性。
本研究提出了一种自动化的持续指令调优框架,解决了现有方法在选择新知识学习方面的不足。该框架动态筛选输入数据,减少冗余,显著降低计算成本66.7%,提高模型性能,实现自主更新,展示了其有效性。
本研究探讨大型语言模型中的政治偏见,提出基于政治科学理论的测量方法。分析了88,110个响应,发现指令调优模型通常偏向左翼,并且测量存在不稳定性问题。
本研究分析了62种大型语言模型自我生成解释的真实性,发现更大规模的模型在真实性上表现更佳。提出的phi-CCT测试表明,指令调优的解释受冗长度影响,未能显著提高真实性。
InstructLab.ai是一个开源项目,旨在解决大型语言模型在指令调优中的可扩展性问题。通过合成数据和分类法,该项目减少了对人工标注数据的依赖,使用户无需深厚的机器学习知识即可调整AI模型。同时,InstructLab.ai定期利用用户贡献重新训练模型,促进社区驱动的创新与定制化。
Mistral推出了Mistral Small 3,该模型在代码、数学、常识和指令跟随等基准测试中表现出色,能够与更大模型竞争,并有望与Microsoft Word本地集成,免除月费。
本研究提出NOVA框架,通过内部一致性探测和语义等效识别,筛选高质量数据,解决大语言模型在指令调优阶段因陌生知识导致的幻觉问题,从而提升模型遵循指令的能力。
本研究提出了一种“指令调优与预训练对齐”(AITP)的方法,以解决指令调优数据集与大语言模型预训练分布之间的对齐问题。通过重写未充分代表的预训练数据,丰富了数据集的多样性,实验结果表明AITP显著提升了模型性能。
本研究分析了大型语言模型(LLMs)在资源丰富与不足语言之间的差距,以巴斯克语为例。研究表明,高质量的巴斯克语语料库通过预训练和指令调优显著提升了模型的自然语言理解和指令执行能力。
本研究比较了指令调优大型语言模型(IT-LLMs)与人类编码者在识别警察与公众互动叙述中的脆弱性表现。结果表明,IT-LLMs在识别无脆弱性叙述方面表现优异,显著减少了人工编码需求,推动了数据分析的标准化与透明化。
本研究探讨了在澳大利亚法律背景下的法律引用预测方法,比较了多种策略,发现任务特定的指令调优显著提高了引用准确性,混合方法优于单一检索方式。
本文介绍了多模态大型语言模型LLaVA的优化研究,提出了区域级视觉编码器和MixLoRA等新方法,显著提升了模型在多样化任务中的性能。同时,研究探讨了基于语言的指令调优方法,改善了模型在零样本任务中的泛化能力,尤其在语言数据集上表现优异。
本研究质疑了指令调优中“强模型是好教师”的假设,实验表明更强的模型并不总能有效指导小模型。提出的新度量“兼容性调整奖励(CAR)”表现优于现有基线。
本研究探讨了指令调优的大型语言模型在文档级机器翻译中的应用,发现其无需微调即可直接翻译整篇文档,且翻译质量优于逐句翻译。研究指出,BLEU评分在文档级翻译评估中存在局限性,未能准确反映翻译质量的优势。
本文提出了一种统一微调(UFT)方法,将序列化应用中的SFT与对齐整合为单一训练阶段,使用相同的目标和损失函数。实验结果表明,UFT在指令调优数据上优于SFT,显著减少了灾难性遗忘,并提升了指令执行和真实性任务的表现。
BioMistral-NLU模型通过统一提示格式和多样化的指令调优数据集MNLU-Instruct,提升了大型语言模型在医疗自然语言理解任务中的表现。研究显示,该模型在多个医疗任务中优于现有模型,展现出更好的普适性和性能。
本研究提出了一种跨模型控制(CMC)方法,旨在优化多个大型语言模型的训练成本和效果。通过引入小型语言模型和令牌映射策略,CMC显著提升了模型在指令调优和去学习任务中的表现,展现出重要的应用潜力。
本文研究了大型语言模型(LLMs)在上下文学习(ICL)中的表现,指出其在理解上下文和长文本方面的局限性。通过微调,模型在复杂任务上的表现有所改善,表明问题源于对齐方法的不足。此外,ICL被视为隐含的指令调优,并与贝叶斯推断相关。研究还提出了模型缩放规律的最佳实践,为模型选择提供参考。
本研究提出了一种新方法——确定性表示知识流(CRaFT),旨在解决拒绝感知指令调优中的过度拒绝问题。通过结合响应的确定性和初步复习训练,显著提高了大型语言模型的表现,减少了错误拒绝已知问题的情况。
完成下面两步后,将自动完成登录并继续当前操作。