小红花·文摘

评估自主系统的伦理问题

MIT News - Artificial intelligence ·

大型语言模型评估指南

ByteByteGo Newsletter ·

谁来监督监督者？大型语言模型对大型语言模型的评估

Stack Overflow Blog ·

生成性与预测性人工智能在应用安全中的全面概述

DEV Community ·

应用安全中生成性与预测性人工智能的全面指南

DEV Community ·

本研究提出了一种基于文本中心的多模态评估方法，旨在解决课堂话语评估的不足。通过注意力机制和多任务学习，评估自然话语、提问和解释的质量。结果表明，文本模态主导，音频特征提升了模型与人类评分的一致性，为自动评估课堂话语质量奠定了基础。

Multimodal Assessment of Classroom Discourse Quality: A Text-Centered Attention-Based Multi-Task Learning Approach

BriefGPT - AI 论文速递 ·

本研究探讨了检索增强生成（RAG）系统的评估方法，分析了63篇学术文章，提出了一种新颖的自动评估方法，并强调了域特定数据集在基准测试中的重要性，为RAG系统的评估提供了更严格的指导。

Can Large Language Models Be Trusted for Evaluating Retrieval-Augmented Generation Systems? A Survey of Methods and Datasets

BriefGPT - AI 论文速递 ·

高效开源的项目管理平台：项目规划、任务管理、缺陷追踪 | 开源日报 No.586

开源服务指南 ·

本文提出了一种基于Torrance创意写作测试的自动评估方法，旨在解决机器生成文本的创造力评估问题。该方法通过与高质量参考文本进行比较，提高了评估的一致性，实验结果显示配对准确率达到0.75，提升幅度为15%。

Automated Creativity Evaluation for Large Language Models: A Reference-Based Approach

BriefGPT - AI 论文速递 ·

本研究探讨了文档级翻译评估的关键问题，强调了自动评估指标的重要性，并提出了未来的发展方向，包括用户友好的评估方法和机器翻译评估的训练模型。

Automated Evaluation Metrics for Document-Level Translation: Overview, Challenges, and Trends

BriefGPT - AI 论文速递 ·

🧠 利用GenAI自动评估聊天机器人：流程、提示与证据

DEV Community ·

🧠 利用生成性人工智能评估聊天机器人：问题、潜力与计划

DEV Community ·

本文探讨了大型语言模型中的偏见问题，提出了一种可扩展的基准框架，通过多任务方法检测社会文化维度的偏见，并利用大型语言模型进行自动评估。研究揭示了模型大小与安全性之间的权衡，为未来更公平的语言模型发展提供指导。

Benchmarking Adversarial Robustness to Bias in Large Language Models: Scalable Automated Assessment Using LLM as a Judge

BriefGPT - AI 论文速递 ·

本研究提出了一种框架，用于自动评估大型语言模型在低资源语言中的脆弱性。研究发现，尽管模型表现不佳，但风险较小，主要源于模型的无效反应。

A Framework for Evaluating the Multilingual Vulnerabilities of Large Language Models

BriefGPT - AI 论文速递 ·

本研究提出了ProjectEval基准，旨在解决现有编程智能体在代码生成能力评估方面的不足，特别是从用户角度进行的自动评估和结果可解释性。研究表明，系统化的工程项目代码及对项目的整体理解是实现实际项目的关键，为开发更有效的编程智能体提供了重要见解。

ProjectEval: A Benchmark for Automated Evaluation of Project-Level Code Generation by Programming Agents

BriefGPT - AI 论文速递 ·

应用安全中生成性和预测性人工智能的全面指南

DEV Community ·

本研究探讨了大型语言模型（LLMs）在自动评估中的非传递性问题，发现评审存在非传递偏好，影响模型排名。为提高排名的可靠性，提出结合循环赛和Bradley-Terry模型的方法，并引入瑞士式迭代配对以提升效率。

研究LLM作为评审的非传递性

BriefGPT - AI 论文速递 ·

本研究探讨了自动语法错误纠正（GEC）系统评估中人类偏好与自动评估之间的差距。提出了一种新的自动评估指标聚合方法，实验结果显示该方法在SEEDA基准上优于现有指标，且基于BERT的指标有时超越GPT-4的表现。

Rethinking Evaluation Metrics for Grammatical Error Correction: Why Use a Different Evaluation Process than Humans?

BriefGPT - AI 论文速递 ·

教育中的人工智能：学习与教学的未来

DEV Community ·

本研究提出了一种自动评估框架，用于检测定制GPT模型的安全和合规性风险。分析结果显示，58.7%的模型存在不合规问题，为提升聊天机器人平台的安全性提供了依据。

Towards Safer Chatbots: A Framework for Policy Compliance Evaluation of Custom GPTs

BriefGPT - AI 论文速递 ·