小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本文探讨了联邦持续学习中的遗忘问题,提出在数据或任务不相关时,准确遗忘某些信息可以提升学习效果。通过引入“准确遗忘”概念,并基于生成重放的方法,定量评估先前知识的可信度,实验结果表明该方法优于基准模型。

Accurate Forgetting in Heterogeneous Federated Continual Learning

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-20T00:00:00Z
Qwen2.5-Max:探索大规模 MoE 模型的智能

Qwen2.5-Max 是一种超大规模 MoE 模型,使用超过 20 万亿 token 进行训练。在多项基准测试中,该模型表现优异,尤其在知识和编程能力评估中超越 DeepSeek V3。目前已通过 API 开放使用,未来将继续探索数据和模型规模的提升。

Qwen2.5-Max:探索大规模 MoE 模型的智能

Blog on Qwen
Blog on Qwen · 2025-01-28T15:00:04Z

本研究分析了大型语言模型(LLMs)的能力结构,指出其能力可分为推理、理解和核心语言建模三部分。文章综述了LLMs的评估方法,探讨了知识、对齐和安全评估的主要方面,并提出了改进评估机制的建议,以提升LLMs的可靠性和社会利益。

评估大语言模型作为函数逼近器的能力:贝叶斯视角

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-06T00:00:00Z

本文探讨了大型语言模型(LLMs)的知识评估方法,提出了KGQuiz框架,涵盖不同领域的知识任务。研究发现LLMs在简单问答中表现良好,但在复杂推理中存在挑战。同时,介绍了SportQA基准,评估LLMs在体育理解方面的能力,指出其在复杂场景推理中的不足。研究旨在提升LLMs的评估标准和应用效果。

通过奥林匹克运动会透视大型语言模型的内部知识结构

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-10T00:00:00Z

文章介绍了一个基于知识的全面评估框架KGQuiz,用于评估大型语言模型在不同领域和任务中的知识泛化能力。通过在KGQuiz基准测试中对十种开源和黑盒LLMs进行实验,发现LLMs在简单的知识问答任务中表现出色,但在需要更复杂推理或领域特定事实的设置和上下文中仍存在挑战。KGQuiz被视为一个测试平台,用于分析不同领域和任务格式下性能的微妙变化,并最终理解、评估和改进LLMs在广泛知识领域和任务中的知识能力。

ALCUNA:大型语言模型迎接新知识

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-23T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码