小红花·文摘 - 小红花技术领袖俱乐部

谁来监督监督者？大型语言模型对大型语言模型的评估

谁来监督监督者？大型语言模型对大型语言模型的评估

Stack Overflow Blog ·

本研究提出了T2VTextBench，这是首个评估视频生成模型中文本准确性和时间一致性的人类评估基准。测试结果显示，大多数模型在生成清晰一致的文本方面面临显著挑战，为未来改善视频合成中的文本处理提供了研究方向。

T2VTextBench：一种用于视频生成模型文本控制的人类评估基准

BriefGPT - AI 论文速递 ·

本研究比较了不同版本的GPT模型在多模态感知中的表现，发现GPT-4和GPT-4o与人类评估一致性高，但在模拟感官体验方面存在显著差异。

通过感知强度评分探索大语言模型的多模态感知

BriefGPT - AI 论文速递 ·

LLM优化方法有三类：Prompt Engineering、RAG、Fine-tuning。问答系统的自动化评分方法有Exact Match (EM)和F1 Score。对话系统的评估维度包括连贯性、流畅性和多样性。人类评估仍然重要，可以作为自动化评分的补充。

问答、对话系统场景下的LLM优化评估方法 - 蝈蝈俊

蝈蝈俊 ·

AI生成的批评帮助人类发现缺陷

AI生成的批评帮助人类发现缺陷

OpenAI ·