小红花·文摘 - 小红花技术领袖俱乐部

开源问卷系统走向考试场景：从调问更新看表单产品的能力边界

开源问卷系统走向考试场景：从调问更新看表单产品的能力边界

mongona news ·

本文探讨了联邦持续学习中的遗忘问题，提出在数据或任务不相关时，准确遗忘某些信息可以提升学习效果。通过引入“准确遗忘”概念，并基于生成重放的方法，定量评估先前知识的可信度，实验结果表明该方法优于基准模型。

Accurate Forgetting in Heterogeneous Federated Continual Learning

BriefGPT - AI 论文速递 ·

Qwen2.5-Max：探索大规模 MoE 模型的智能

Qwen2.5-Max：探索大规模 MoE 模型的智能

Blog on Qwen ·

本研究分析了大型语言模型（LLMs）的能力结构，指出其能力可分为推理、理解和核心语言建模三部分。文章综述了LLMs的评估方法，探讨了知识、对齐和安全评估的主要方面，并提出了改进评估机制的建议，以提升LLMs的可靠性和社会利益。

评估大语言模型作为函数逼近器的能力：贝叶斯视角

BriefGPT - AI 论文速递 ·

本文探讨了大型语言模型（LLMs）的知识评估方法，提出了KGQuiz框架，涵盖不同领域的知识任务。研究发现LLMs在简单问答中表现良好，但在复杂推理中存在挑战。同时，介绍了SportQA基准，评估LLMs在体育理解方面的能力，指出其在复杂场景推理中的不足。研究旨在提升LLMs的评估标准和应用效果。

通过奥林匹克运动会透视大型语言模型的内部知识结构

BriefGPT - AI 论文速递 ·

文章介绍了一个基于知识的全面评估框架KGQuiz，用于评估大型语言模型在不同领域和任务中的知识泛化能力。通过在KGQuiz基准测试中对十种开源和黑盒LLMs进行实验，发现LLMs在简单的知识问答任务中表现出色，但在需要更复杂推理或领域特定事实的设置和上下文中仍存在挑战。KGQuiz被视为一个测试平台，用于分析不同领域和任务格式下性能的微妙变化，并最终理解、评估和改进LLMs在广泛知识领域和任务中的知识能力。

ALCUNA：大型语言模型迎接新知识

BriefGPT - AI 论文速递 ·