小红花·文摘

本研究比较了大型语言模型（如GPT-4o）与人类评审在TREC 2024 RAG轨道中对引文信息支持答案的判断。结果表明，GPT-4o与人类评审的一致性较高，尤其在人工后编辑条件下，显示出LLM评审可作为可靠的替代方案。

BriefGPT - AI 论文速递 ·

本研究提出了一种基于真实生活过程的两阶段框架，解决了大型语言模型在零样本通俗总结中的应用问题。结果表明，该方法生成的总结更受人类评审青睐，展示了其在自然语言处理中的潜力和应用价值。

BriefGPT - AI 论文速递 ·