I-SHEEP:通过迭代自增强范式从头自我对齐大型语言模型
原文中文,约500字,阅读约需2分钟。发表于: 。本研究针对当前大型语言模型(LLM)被视为被动信息库的问题,提出了I-SHEEP这一人类般的迭代自增强对齐范式。通过该方法,LLM可以从零开始持续自我对齐,并在多个基准测试中显示出显著的性能提升,最高可达78.2%的相对提升,展示了其在自我对齐方面的巨大潜力与影响。
CodeUltraFeedback是一个包含10,000个复杂指令的偏好数据集,用于调整和对齐语言模型与编码偏好。通过使用CodeUltraFeedback的AI反馈数据,CodeLlama-7B-Instruct在CODAL-Bench上优于34B模型。经过优化的CodeLlama模型在HumanEval+上的功能正确性有所改进。这项研究为语言模型对编码偏好的调整和代码智能的进一步发展奠定了基础。