小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
开源大语言模型背后的架构

npx workos推出了一款AI代理,能够将身份验证直接集成到现有代码中。DeepSeek V3及其他模型采用混合专家架构,优化了计算效率和内存使用,推动了开源生态的发展。

开源大语言模型背后的架构

ByteByteGo Newsletter
ByteByteGo Newsletter · 2026-03-02T16:30:50Z
GLM-4.5发布,具备强大的推理、编码和智能代理能力

Zhipu AI发布了GLM-4.5和GLM-4.5-Air两款新AI模型,分别拥有355B和106B参数,采用混合专家架构,优化为“思考”和“非思考”模式。GLM-4.5在编码基准测试中表现优异,成功率达到90.6%。

GLM-4.5发布,具备强大的推理、编码和智能代理能力

InfoQ
InfoQ · 2025-08-07T06:05:00Z

本文介绍了MiniMax-M1模型的核心创新,包括闪电注意力和混合专家架构,显著提升了长文本处理能力。采用CISPO算法优化强化学习训练,提高效率并降低成本。模型在数学推理和工具调用等任务中表现优异,全面开源推动大模型应用普及。未来挑战包括数学推理优化和生态建设。

MiniMax-M1:闪电注意力重塑大模型推理效率,百万上下文时代来临,附技术报告英中对照版

我爱自然语言处理
我爱自然语言处理 · 2025-07-03T09:14:03Z

本研究提出了一种名为DynaMix的混合专家架构,旨在解决动态系统重建中的零样本推断能力不足问题。该方法能够在无需再培训的情况下,根据上下文信号对新动态系统进行长期演化预测,展现出在动态系统预测领域的巨大潜力。

True Zero-Shot Inference of Dynamical Systems Preserving Long-Term Statistics

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-19T00:00:00Z
Qwen 3 基准测试、比较、模型规格及更多信息

Qwen3是阿里巴巴于2025年4月29日发布的开源AI模型,参数规模从600M到32B不等。其混合专家架构实现了高效计算,支持深度推理和快速响应,训练数据涵盖119种语言,适合编程和逻辑问题解决。

Qwen 3 基准测试、比较、模型规格及更多信息

DEV Community
DEV Community · 2025-05-01T14:14:14Z
Seed-Thinking-v1.5:用强化学习推动语言模型的深度推理能力

字节跳动发布的Seed-Thinking-v1.5模型在数学、编程和科学任务中表现优异,参数量达到2000亿。其混合专家架构和强化学习方法提升了推理能力,尤其在创意写作方面表现突出。尽管在某些领域仍有不足,但其系统性方法为AI推理能力提升提供了新思路。

Seed-Thinking-v1.5:用强化学习推动语言模型的深度推理能力

我爱自然语言处理
我爱自然语言处理 · 2025-04-13T03:30:43Z
Kimi-VL:开源多模态模型的新标杆——解读高效视觉语言混合专家模型

Kimi团队发布的Kimi-VL是一个高效的开源多模态模型,采用混合专家架构和长上下文窗口,显著提升视觉语言理解能力,超越多个闭源模型,标志着开源领域的重要突破。

Kimi-VL:开源多模态模型的新标杆——解读高效视觉语言混合专家模型

我爱自然语言处理
我爱自然语言处理 · 2025-04-10T02:54:26Z
Llama 4:解析Meta最新强大模型

Llama 4引入混合专家架构,提升了模型效率和响应速度,支持高达1000万的上下文窗口,适合复杂任务。与以往模型相比,在多模态理解和资源利用上有显著改进,开发者可通过Cloudflare轻松实现应用。

Llama 4:解析Meta最新强大模型

DEV Community
DEV Community · 2025-04-06T03:18:08Z
Meta深夜开源Llama 4!首次采用MoE,惊人千万token上下文,竞技场超越DeepSeek

Meta在周末发布了最新的AI模型系列Llama 4,包括Llama 4 Scout、Maverick和Behemoth。这些模型经过大量数据训练,具备强大的视觉理解能力,特别是Llama 4 Maverick在多项基准测试中表现优异,超越竞争对手。Scout和Maverick支持长达1000万token的上下文,适用于多种应用,且采用混合专家架构,提升推理效率和性能。

Meta深夜开源Llama 4!首次采用MoE,惊人千万token上下文,竞技场超越DeepSeek

机器之心
机器之心 · 2025-04-06T02:18:10Z

本研究提出了MoECollab框架,利用混合专家架构实现大型语言模型(LLM)的分布式协作开发,解决了集中化问题,提高了准确性,降低了计算需求,推动了LLM开发的民主化。

MoECollab: Democratizing LLM Development Through Collaborative Mixture of Experts

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-16T00:00:00Z

本研究提出了FedMoE框架,用于解决联合学习中的数据异质性问题。该框架利用稀疏激活的混合专家架构,提高个性化联邦学习的效率和灵活性。实验证明,FedMoE在资源受限的环境中能够实现更优的模型训练效果。

FedMoE:通过异构专家混合实现个性化联邦学习

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-21T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码