小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
推出Align Evals:简化LLM应用评估

LangSmith推出Align Evals功能,帮助用户校准评估者以更好地匹配人类偏好。该功能允许用户迭代评估提示,比较人类评分与LLM生成的分数,并保存基线对比。用户可以通过选择评估标准、创建示例数据、手动评分和测试提示来逐步提升评估者的表现,未来还将推出分析工具和自动提示优化功能。

推出Align Evals:简化LLM应用评估

LangChain Blog
LangChain Blog · 2025-07-29T20:12:52Z

本研究提出了一种潜在偏好编码(LPC)方法,以解决大型语言模型与人类偏好对齐的问题。LPC超越了传统的奖励函数,能够自动推断数据中的隐性因素。实验结果表明,LPC在多个基准测试中优于现有算法,并增强了对噪声数据的鲁棒性。

潜在偏好编码:通过离散潜在编码对大型语言模型进行对齐

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-08T00:00:00Z

本研究提出了一种“软最佳抽样”方法,旨在解决对齐语言模型输出与人类偏好时的失真成本问题。该方法通过温度参数实现原始分布与奖励最大化分布的平滑插值,理论上证明其以O(1/n)速度收敛,从而提升模型的对齐效果。

Soft Optimal Sampling Method for Model Alignment

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-06T00:00:00Z

本研究分析了视觉-语言模型在生成指称表达时的不足,提出了新数据集RefOI,揭示了模型在识别参照物、信息冗余和人类偏好不匹配等方面的缺陷,强调了实用性模型的重要性。

视觉-语言模型在指称表达生成中的实用能力不足

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-22T00:00:00Z

本研究探讨了大型语言模型(LLM)在相关性评估中的局限性,比较了二元和等级相关性判断方法,结果显示不同方法在与人类偏好的对齐和信息检索应用效果上存在显著差异。

Benchmarking LLM-based Relevance Judgment Methods

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-17T00:00:00Z

本研究提出了一种新方法RefAlign,旨在降低大型语言模型对齐中人类偏好数据收集的成本。通过利用样本生成与高质量参考答案的相似性作为奖励函数,显著提高了对齐效率,适用于多种对齐场景,且性能与传统方法相当。

通过参考答案学习:无需二元人类偏好数据的多功能语言模型对齐

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-14T00:00:00Z

本研究提出了视频基准(Video-Bench),旨在提升视频生成评估的准确性与人类偏好的对齐。通过多样化的提示和评估维度,系统利用多种大型语言模型,实验结果表明其在客观性和准确性上优于传统方法。

视频基准:人类对齐的视频生成基准

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-07T00:00:00Z
Qwen2.5-VL-32B: 更聪明、更轻量!

Qwen2.5-VL-32B模型在社区中获得积极反馈,具备更符合人类偏好的回复、提升的数学推理能力和图像理解能力,尤其在多模态任务中表现优越。未来将专注于复杂推理任务的研究。

Qwen2.5-VL-32B: 更聪明、更轻量!

Blog on Qwen
Blog on Qwen · 2025-03-23T16:00:04Z

该研究解决了中文奖励模型研究中数据集和基准不足的问题,提出了CheemsBench和CheemsPreference工具,强调人工监督在捕捉人类偏好中的重要性,并指出AI生成的数据无法充分反映人类偏好。

Cheems: A Practical Guide to Building and Evaluating Chinese Reward Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-24T00:00:00Z

本研究探讨了奖励模型在大型语言模型中对人类偏好的对齐及推理质量提升的重要性,指出现有模型更注重结构一致性而非因果正确性,强调需开发关注因果关系的奖励模型。

奖励模型识别一致性,而非因果关系

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-20T00:00:00Z

本研究提出了“严格偏好采样”(HPS)框架,以提高大型语言模型(LLM)与人类偏好的对齐效率和鲁棒性。HPS通过重视受欢迎的响应并拒绝有害内容,显著降低计算成本,并有效减少生成有害内容的风险。

HPS: Hard Preference Sampling for Human Preference Alignment

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-20T00:00:00Z

本研究提出偏好对齐蒸馏(PAD)框架,旨在解决小型语言模型(SLMs)从大型语言模型(LLMs)中提取偏好知识的细化问题,显著提升人类偏好的对齐效果。

Capturing Fine-Grained Preferences: Preference Alignment Distillation for Small Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-20T00:00:00Z

本研究探讨了人类与大型语言模型生成文本的差异,主要体现在具体性、文化细微差别和多样性。尽管检测准确率高达87.6%,人类在某些情况下并不总偏好人类撰写的文本。

Do Humans Prefer Human-Like Text? Multilingual Human Detection and Preference Against AI

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-17T00:00:00Z

本研究提出自一致内部奖励(SCIR)框架,旨在解决大型语言模型(LLM)内部奖励模型的不一致性问题,从而提升与人类偏好的对齐性能和奖励建模能力。

Improving the Consistency of Internal Reward Models Enhances the Performance of Self-Reinforcement Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-13T00:00:00Z

本研究探讨了自动语法错误纠正(GEC)系统评估中人类偏好与自动评估之间的差距。提出了一种新的自动评估指标聚合方法,实验结果显示该方法在SEEDA基准上优于现有指标,且基于BERT的指标有时超越GPT-4的表现。

Rethinking Evaluation Metrics for Grammatical Error Correction: Why Use a Different Evaluation Process than Humans?

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-13T00:00:00Z

DeepSeek-R1的训练分为四个阶段:冷启动、推理强化学习、拒绝采样与监督微调、全场景强化学习。前两个阶段通过SFT和RL提升推理能力和稳定性,后两个阶段增强模型的通用性与人类偏好的对齐,最终实现高性能。

DeepSeek-R1的四个训练阶段 - 蝈蝈俊

蝈蝈俊
蝈蝈俊 · 2025-02-10T00:45:00Z

本研究探讨智能体在何种条件下能有效与人类偏好对齐,特别是在协作能力强的情况下。通过博弈论框架,揭示了对齐的计算障碍,并指出在大量任务和智能体时,对齐几乎无法加速,同时讨论了其他情况下对齐的可能性。

Barriers and Pathways to Human-AI Alignment: A Game-Theoretic Approach

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-09T00:00:00Z

本文介绍了名为 Themis 的大语言模型评审机制,旨在提供上下文感知的评价。Themis 能够提炼教师模型的评估技能,适应变化的需求,研究表明其与人类偏好的高度一致性,具有广泛的应用潜力。

Training LLM as a Review Model: Processes, Insights, and Practical Experiences

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-05T00:00:00Z

本研究提出了Wasserstein DPO和Kullback-Leibler DPO两种新算法,以解决大型语言模型与人类偏好对齐中的分布变化问题,实验结果显示其对齐效果显著提升。

Distributionally Robust Direct Preference Optimization

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-04T00:00:00Z

本文提出了一种新方法,解决大语言模型训练中的人类偏好对齐问题。研究者引入“近似克隆鲁棒性”概念,并提出加权最大似然估计算法,以确保在数据不均匀情况下奖励函数的稳定性。

克隆鲁棒的人工智能对齐

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-16T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码