小红花·文摘

使用Spring AI进行LLM响应评估：基于递归顾问构建LLM作为评判者

Spring ·

外部验证工具能否提高LLM作为评判者的标注质量

Apple Machine Learning Research ·

以LLM作为评判者评估AI：现代语言模型评估的新标准

DEV Community ·

本研究针对LLM作为评判者在评估自然语言文本质量时存在的偏见问题，分析了其在判断对话问题回答正确性上的能力。研究创新性地创建并发布了一个包含1200个LLM响应正确性标签的数据集，并发现提供高质量人类参考答案显著提高了评判者的判断准确性，揭示了LLM评判者与人类标注者之间复杂的关联。

没有免费的标签：没有人类基础的LLM作为评判者的局限性

BriefGPT - AI 论文速递 ·

本研究解决了大型语言模型在应对恶意用户交互方面的安全性和可靠性问题。我们提出了一种创新的方法，通过微调和对齐思维链的响应，使其作为输入审查的防御机制，以检测恶意输入并提供合理解释。实验结果表明，这些技术显著提高了对话式人工智能系统的安全性，并为更安全的AI驱动互动奠定了可行的框架。

优化输入守卫：通过思维链微调和对齐提升大型语言模型作为评判者的效率

BriefGPT - AI 论文速递 ·

本文探讨了人类和大型语言模型（LLM）作为评判者的偏见问题，提出了五种偏见的新框架，并通过142个样本的数据集进行了评估。研究发现评判者在面对扰动时存在脆弱性，且偏见普遍存在。提出了去偏见的数据集构建方法和新的评估工具，以提高评估的可靠性和一致性。

公正还是偏见？量化大语言模型作为法官的偏见

BriefGPT - AI 论文速递 ·

本研究探讨了大型语言模型（LLM）在对齐任务中作为评判者的可靠性问题，尤其是评估现有评价指标的可解释性和LM内部不一致性的问题。通过开发新的评价框架，本文揭示了不同提示模板对LLM评判者性能的显著影响，并指出测试的LLM评判者与人类评估者之间存在中等对齐水平。本工作为选择用于对齐任务的LLM评判者提供了重要的见解。

大型语言模型作为评判者在对齐任务中的系统评估：可解释指标和多样化提示模板

BriefGPT - AI 论文速递 ·

将大型语言模型作为评判者与人类偏好对齐

LangChain Blog ·

本研究探讨了大型语言模型（LLM）作为评判者评估聊天助手的有效性，发现LLM评判者与人类评判者的偏好一致，但存在潜在偏见。研究提出了针对LLM和人类评判者的偏见框架，并通过实验验证了评估方法的有效性，强调了改进评估系统的必要性。

法官的判断：对 LLMs 中两两比较评估的位置偏见的系统调查

BriefGPT - AI 论文速递 ·

多模式大型语言模型在预测推理方面的能力尚未得到充分探索。研究者引入了一个新的基准测试，评估这些模型在不同情境下的预测推理能力。通过实验证实了基准测试的合理性，并揭示了当前流行的多模式大型语言模型在预测推理任务中的优缺点。这个基准测试为多模式大型语言模型提供了一个标准化的评估框架，并促进了更先进的模型的发展。

MLLM 作为评判者：以视觉 - 语言基准评估多模态 MLLM

BriefGPT - AI 论文速递 ·

研究发现大型语言模型常出现“幻觉”，需要事实验证器。FLAN-T5-11B在维基百科领域表现最佳。大型语言模型对高质量证据依赖，鲁棒性和泛化能力不足。

大型语言模型是否可靠的评判者？一个关于 LLM 事实性评估能力的研究

BriefGPT - AI 论文速递 ·