本文探讨了大型语言模型(LLMs)在内容质量评估中的系统偏差,并提出了两种校准策略以减轻这种偏差。研究表明,LLMs在评估中存在显著偏见,影响其与人类判断的一致性。作者开发了FairEval工具包,结合人工注释,促进未来研究的开展。
本文探讨了大型语言模型(LLMs)在自然语言生成评估中的偏见问题,提出了多维度独立评估系统以提高评估质量。研究发现LLMs存在冗长性偏差和偏见分布,影响评估一致性。作者提出了校准策略以减轻这些偏差,并开发了工具包FairEval以促进未来研究。
在少样本增量学习(FSCIL)中,现有方法常将新类别样本误分类为基类别,影响新类别性能。为此,提出了一种校准策略TEEN,通过融合新类别与加权基类别原型,提升可区分性。该方法在多个基准测试中表现优异,显著减轻模型偏差问题,并在多个数据集上取得领先性能。
本文探讨了大型语言模型(LLM)评估中人类偏好与模型表现的关系。研究发现,人类对错误不敏感,倾向于偏好支持自身观点的回答,而高级模型如GPT-4-Turbo更注重正确性和清晰度。通过成对偏好学习,提出了一种新框架以自动评估LLM,解决评估偏见和成本问题,并提出校准策略以提高与人类评估的一致性。
完成下面两步后,将自动完成登录并继续当前操作。