本文提出了一种基于Torrance创意写作测试的自动评估方法,旨在解决机器生成文本的创造力评估问题。该方法通过与高质量参考文本进行比较,提高了评估的一致性,实验结果显示配对准确率达到0.75,提升幅度为15%。
本研究探讨大型语言模型(LLMs)在软件工程中作为评判者的有效性。研究表明,LLM在代码翻译和生成任务中的评估与人工评估的一致性显著提高,显示出其模仿人类评估的潜力。
本研究针对文本到语音(TTS)评估中的一致性和稳健性问题,提出了改进的MUSHRA测试变体,以解决参考匹配偏差和评判模糊性。此外,研究发布了包含47,100个汉语和泰米尔语评分的MANGO数据集,旨在支持人类偏好分析和自动评估指标的开发。
完成下面两步后,将自动完成登录并继续当前操作。