小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
一种像大脑一样构建的前沿模型,使用Python和Rust

Pathway团队认为变压器架构已达极限,无法解决计算和能耗问题。他们正在开发一种新模型——龙蛋架构,灵感来自人脑,强调稀疏激活和神经元连接,以提高学习和记忆效率。该架构保留时间结构,解决了变压器的时间盲点和记忆问题,展现出更低的能耗和更好的数据效率。

一种像大脑一样构建的前沿模型,使用Python和Rust

The New Stack
The New Stack · 2025-12-16T23:03:47Z

面壁智能与清华的CFM技术通过神经元级稀疏激活,提高了模型参数效率,降低了资源消耗,适合手机端应用。与MoE相比,CFM在稀疏化和动态性上更为优越,能够根据任务需求灵活激活神经元。

手机实现GPT级智能,比MoE更极致的稀疏技术:省内存效果不减|对话面壁&清华肖朝军

量子位
量子位 · 2025-04-12T07:16:09Z

本研究提出了一种新方法“MoE专家压缩套件”(MC-Suite),旨在解决稀疏激活混合专家(SMoE)模型的冗余和内存需求问题。通过迭代修剪和微调机制,优化专家丢弃过程,显著提升了SMoE的能力,尤其是指令执行能力,为混合专家模型的高效性和可扩展性提供了重要见解。

Finding Outstanding Experts in Mixture of Experts: A Unified Study on Expert Dropping Strategies and Observations

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-08T00:00:00Z

本研究提出了雅可比稀疏自编码器(JSAEs),解决了传统稀疏自编码器仅关注激活稀疏性的问题。JSAEs实现了输入、输出激活及连接的雅可比矩阵的稀疏性,在保持大规模语言模型(LLM)性能的同时,提升了计算稀疏性,强调了计算图稀疏性在LLM训练中的重要性。

Jacobian Sparse Autoencoders: Sparsifying Computations, Not Just Activations

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-25T00:00:00Z
思维链?思维树?华为诺亚:现在到了思维森林时刻!

思维森林(FoT)框架通过整合多个推理树,增强大模型的高阶推理能力,解决复杂逻辑问题。FoT采用稀疏激活和动态自校正策略,提高效率和准确性,广泛应用于金融、医疗和法律等领域,推动大模型智能化发展。

思维链?思维树?华为诺亚:现在到了思维森林时刻!

机器之心
机器之心 · 2025-01-14T06:21:00Z

混合专家(MoE)模型通过稀疏激活多个专家来提高计算效率和性能。本文探讨了动态专家选择、知识蒸馏和模型修剪等创新方法,旨在优化模型性能并减少内存消耗。研究表明,这些方法在自然语言处理和计算机视觉等任务中表现优异,为未来的MoE研究提供了重要方向。

模型合并调研:回收与路由专门化专家以实现协同学习

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-13T00:00:00Z

本文探讨了在小型语言模型中实现稀疏激活的方法,提出了E-Sparse和ProSparse技术,显著提高了模型的稀疏性和推理速度,同时保持较高的准确性。研究表明,通过创新的剪枝和量化方法,可以在不牺牲性能的情况下实现更高的计算和内存效率。

Q-Sparse: 所有大型语言模型可以完全稀疏激活

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-15T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码