基于图模型的会话测试自动口语评估研究
原文中文,约200字,阅读约需1分钟。发表于: 。本研究针对会话测试中自动口语评估(ASAC)缺乏对发言连贯性研究的现状,提出了一种分层图模型,综合考虑交互反应和语义信息,从而提升评估模型的准确性。实验结果表明,该模型在众多评估指标上明显优于现有基线,突显了在口语评估中研究连贯性的重要性。
研究人员提出了SD-Eval标准数据集,用于评估和改进大型语言模型在口语对话理解和生成方面的能力。该数据集包含了7,303个话语,总计8.76个小时的语音数据,代表了情感、口音、年龄和背景声音等四个维度。研究人员通过客观和主观评估方法以及基于大型语言模型的指标,证明了使用语音的附加信息可以显著提高生成响应的质量。