小红花·文摘 - 小红花技术领袖俱乐部

本文提出了一种基于Torrance创意写作测试的自动评估方法，旨在解决机器生成文本的创造力评估问题。该方法通过与高质量参考文本进行比较，提高了评估的一致性，实验结果显示配对准确率达到0.75，提升幅度为15%。

Automated Creativity Evaluation for Large Language Models: A Reference-Based Approach

BriefGPT - AI 论文速递 ·

本研究探讨大型语言模型（LLMs）在软件工程中作为评判者的有效性。研究表明，LLM在代码翻译和生成任务中的评估与人工评估的一致性显著提高，显示出其模仿人类评估的潜力。

Can Large Language Models Replace Human Evaluators? An Empirical Study of LLMs as Judges in Software Engineering

BriefGPT - AI 论文速递 ·

本研究针对文本到语音（TTS）评估中的一致性和稳健性问题，提出了改进的MUSHRA测试变体，以解决参考匹配偏差和评判模糊性。此外，研究发布了包含47,100个汉语和泰米尔语评分的MANGO数据集，旨在支持人类偏好分析和自动评估指标的开发。

Rethinking MUSHRA: Addressing Modern Challenges in Text-to-Speech Evaluation

BriefGPT - AI 论文速递 ·