LangSmith推出Align Evals功能,帮助用户校准评估者以更好地匹配人类偏好。该功能允许用户迭代评估提示,比较人类评分与LLM生成的分数,并保存基线对比。用户可以通过选择评估标准、创建示例数据、手动评分和测试提示来逐步提升评估者的表现,未来还将推出分析工具和自动提示优化功能。
本研究提出了一种潜在偏好编码(LPC)方法,以解决大型语言模型与人类偏好对齐的问题。LPC超越了传统的奖励函数,能够自动推断数据中的隐性因素。实验结果表明,LPC在多个基准测试中优于现有算法,并增强了对噪声数据的鲁棒性。
本研究提出了一种“软最佳抽样”方法,旨在解决对齐语言模型输出与人类偏好时的失真成本问题。该方法通过温度参数实现原始分布与奖励最大化分布的平滑插值,理论上证明其以O(1/n)速度收敛,从而提升模型的对齐效果。
本研究分析了视觉-语言模型在生成指称表达时的不足,提出了新数据集RefOI,揭示了模型在识别参照物、信息冗余和人类偏好不匹配等方面的缺陷,强调了实用性模型的重要性。
本研究探讨了大型语言模型(LLM)在相关性评估中的局限性,比较了二元和等级相关性判断方法,结果显示不同方法在与人类偏好的对齐和信息检索应用效果上存在显著差异。
本研究提出了一种新方法RefAlign,旨在降低大型语言模型对齐中人类偏好数据收集的成本。通过利用样本生成与高质量参考答案的相似性作为奖励函数,显著提高了对齐效率,适用于多种对齐场景,且性能与传统方法相当。
本研究提出了视频基准(Video-Bench),旨在提升视频生成评估的准确性与人类偏好的对齐。通过多样化的提示和评估维度,系统利用多种大型语言模型,实验结果表明其在客观性和准确性上优于传统方法。
Qwen2.5-VL-32B模型在社区中获得积极反馈,具备更符合人类偏好的回复、提升的数学推理能力和图像理解能力,尤其在多模态任务中表现优越。未来将专注于复杂推理任务的研究。
该研究解决了中文奖励模型研究中数据集和基准不足的问题,提出了CheemsBench和CheemsPreference工具,强调人工监督在捕捉人类偏好中的重要性,并指出AI生成的数据无法充分反映人类偏好。
本研究探讨了奖励模型在大型语言模型中对人类偏好的对齐及推理质量提升的重要性,指出现有模型更注重结构一致性而非因果正确性,强调需开发关注因果关系的奖励模型。
本研究提出了“严格偏好采样”(HPS)框架,以提高大型语言模型(LLM)与人类偏好的对齐效率和鲁棒性。HPS通过重视受欢迎的响应并拒绝有害内容,显著降低计算成本,并有效减少生成有害内容的风险。
本研究提出偏好对齐蒸馏(PAD)框架,旨在解决小型语言模型(SLMs)从大型语言模型(LLMs)中提取偏好知识的细化问题,显著提升人类偏好的对齐效果。
本研究探讨了人类与大型语言模型生成文本的差异,主要体现在具体性、文化细微差别和多样性。尽管检测准确率高达87.6%,人类在某些情况下并不总偏好人类撰写的文本。
本研究提出自一致内部奖励(SCIR)框架,旨在解决大型语言模型(LLM)内部奖励模型的不一致性问题,从而提升与人类偏好的对齐性能和奖励建模能力。
本研究探讨了自动语法错误纠正(GEC)系统评估中人类偏好与自动评估之间的差距。提出了一种新的自动评估指标聚合方法,实验结果显示该方法在SEEDA基准上优于现有指标,且基于BERT的指标有时超越GPT-4的表现。
DeepSeek-R1的训练分为四个阶段:冷启动、推理强化学习、拒绝采样与监督微调、全场景强化学习。前两个阶段通过SFT和RL提升推理能力和稳定性,后两个阶段增强模型的通用性与人类偏好的对齐,最终实现高性能。
本研究探讨智能体在何种条件下能有效与人类偏好对齐,特别是在协作能力强的情况下。通过博弈论框架,揭示了对齐的计算障碍,并指出在大量任务和智能体时,对齐几乎无法加速,同时讨论了其他情况下对齐的可能性。
本文介绍了名为 Themis 的大语言模型评审机制,旨在提供上下文感知的评价。Themis 能够提炼教师模型的评估技能,适应变化的需求,研究表明其与人类偏好的高度一致性,具有广泛的应用潜力。
本研究提出了Wasserstein DPO和Kullback-Leibler DPO两种新算法,以解决大型语言模型与人类偏好对齐中的分布变化问题,实验结果显示其对齐效果显著提升。
本文提出了一种新方法,解决大语言模型训练中的人类偏好对齐问题。研究者引入“近似克隆鲁棒性”概念,并提出加权最大似然估计算法,以确保在数据不均匀情况下奖励函数的稳定性。
完成下面两步后,将自动完成登录并继续当前操作。