小红花·文摘

推出Align Evals：简化LLM应用评估

LangChain Blog ·

本研究提出了一种潜在偏好编码（LPC）方法，以解决大型语言模型与人类偏好对齐的问题。LPC超越了传统的奖励函数，能够自动推断数据中的隐性因素。实验结果表明，LPC在多个基准测试中优于现有算法，并增强了对噪声数据的鲁棒性。

潜在偏好编码：通过离散潜在编码对大型语言模型进行对齐

BriefGPT - AI 论文速递 ·

本研究提出了一种“软最佳抽样”方法，旨在解决对齐语言模型输出与人类偏好时的失真成本问题。该方法通过温度参数实现原始分布与奖励最大化分布的平滑插值，理论上证明其以O(1/n)速度收敛，从而提升模型的对齐效果。

Soft Optimal Sampling Method for Model Alignment

BriefGPT - AI 论文速递 ·

本研究分析了视觉-语言模型在生成指称表达时的不足，提出了新数据集RefOI，揭示了模型在识别参照物、信息冗余和人类偏好不匹配等方面的缺陷，强调了实用性模型的重要性。

视觉-语言模型在指称表达生成中的实用能力不足

BriefGPT - AI 论文速递 ·

本研究探讨了大型语言模型（LLM）在相关性评估中的局限性，比较了二元和等级相关性判断方法，结果显示不同方法在与人类偏好的对齐和信息检索应用效果上存在显著差异。

Benchmarking LLM-based Relevance Judgment Methods

BriefGPT - AI 论文速递 ·

本研究提出了一种新方法RefAlign，旨在降低大型语言模型对齐中人类偏好数据收集的成本。通过利用样本生成与高质量参考答案的相似性作为奖励函数，显著提高了对齐效率，适用于多种对齐场景，且性能与传统方法相当。

通过参考答案学习：无需二元人类偏好数据的多功能语言模型对齐

BriefGPT - AI 论文速递 ·

本研究提出了视频基准（Video-Bench），旨在提升视频生成评估的准确性与人类偏好的对齐。通过多样化的提示和评估维度，系统利用多种大型语言模型，实验结果表明其在客观性和准确性上优于传统方法。

视频基准：人类对齐的视频生成基准

BriefGPT - AI 论文速递 ·

Qwen2.5-VL-32B: 更聪明、更轻量!

Blog on Qwen ·

该研究解决了中文奖励模型研究中数据集和基准不足的问题，提出了CheemsBench和CheemsPreference工具，强调人工监督在捕捉人类偏好中的重要性，并指出AI生成的数据无法充分反映人类偏好。

Cheems: A Practical Guide to Building and Evaluating Chinese Reward Models

BriefGPT - AI 论文速递 ·

本研究探讨了奖励模型在大型语言模型中对人类偏好的对齐及推理质量提升的重要性，指出现有模型更注重结构一致性而非因果正确性，强调需开发关注因果关系的奖励模型。

奖励模型识别一致性，而非因果关系

BriefGPT - AI 论文速递 ·

本研究提出了“严格偏好采样”（HPS）框架，以提高大型语言模型（LLM）与人类偏好的对齐效率和鲁棒性。HPS通过重视受欢迎的响应并拒绝有害内容，显著降低计算成本，并有效减少生成有害内容的风险。

HPS: Hard Preference Sampling for Human Preference Alignment

BriefGPT - AI 论文速递 ·

本研究提出偏好对齐蒸馏(PAD)框架，旨在解决小型语言模型(SLMs)从大型语言模型(LLMs)中提取偏好知识的细化问题，显著提升人类偏好的对齐效果。

Capturing Fine-Grained Preferences: Preference Alignment Distillation for Small Language Models

BriefGPT - AI 论文速递 ·

本研究探讨了人类与大型语言模型生成文本的差异，主要体现在具体性、文化细微差别和多样性。尽管检测准确率高达87.6%，人类在某些情况下并不总偏好人类撰写的文本。

Do Humans Prefer Human-Like Text? Multilingual Human Detection and Preference Against AI

BriefGPT - AI 论文速递 ·

本研究提出自一致内部奖励（SCIR）框架，旨在解决大型语言模型（LLM）内部奖励模型的不一致性问题，从而提升与人类偏好的对齐性能和奖励建模能力。

Improving the Consistency of Internal Reward Models Enhances the Performance of Self-Reinforcement Language Models

BriefGPT - AI 论文速递 ·

本研究探讨了自动语法错误纠正（GEC）系统评估中人类偏好与自动评估之间的差距。提出了一种新的自动评估指标聚合方法，实验结果显示该方法在SEEDA基准上优于现有指标，且基于BERT的指标有时超越GPT-4的表现。

Rethinking Evaluation Metrics for Grammatical Error Correction: Why Use a Different Evaluation Process than Humans?

BriefGPT - AI 论文速递 ·

DeepSeek-R1的训练分为四个阶段：冷启动、推理强化学习、拒绝采样与监督微调、全场景强化学习。前两个阶段通过SFT和RL提升推理能力和稳定性，后两个阶段增强模型的通用性与人类偏好的对齐，最终实现高性能。

DeepSeek-R1的四个训练阶段 - 蝈蝈俊

蝈蝈俊 ·

本研究探讨智能体在何种条件下能有效与人类偏好对齐，特别是在协作能力强的情况下。通过博弈论框架，揭示了对齐的计算障碍，并指出在大量任务和智能体时，对齐几乎无法加速，同时讨论了其他情况下对齐的可能性。

Barriers and Pathways to Human-AI Alignment: A Game-Theoretic Approach

BriefGPT - AI 论文速递 ·

本文介绍了名为 Themis 的大语言模型评审机制，旨在提供上下文感知的评价。Themis 能够提炼教师模型的评估技能，适应变化的需求，研究表明其与人类偏好的高度一致性，具有广泛的应用潜力。

Training LLM as a Review Model: Processes, Insights, and Practical Experiences

BriefGPT - AI 论文速递 ·

本研究提出了Wasserstein DPO和Kullback-Leibler DPO两种新算法，以解决大型语言模型与人类偏好对齐中的分布变化问题，实验结果显示其对齐效果显著提升。

Distributionally Robust Direct Preference Optimization

BriefGPT - AI 论文速递 ·

本文提出了一种新方法，解决大语言模型训练中的人类偏好对齐问题。研究者引入“近似克隆鲁棒性”概念，并提出加权最大似然估计算法，以确保在数据不均匀情况下奖励函数的稳定性。

克隆鲁棒的人工智能对齐

BriefGPT - AI 论文速递 ·