小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
一分钟读论文:《用扩散语言模型统一多模态理解与生成》

蚂蚁集团的论文《LLaDA2.0-Uni》提出了一种离散扩散语言模型,旨在统一视觉理解和图像生成。该模型通过将图像压缩为离散语义token,并利用混合专家架构实现文本和视觉token的并行处理,显著提升推理速度。LLaDA2.0-Uni在视觉理解和图像生成任务上表现优异,展现出理解与生成的连续交互能力。

一分钟读论文:《用扩散语言模型统一多模态理解与生成》

Micropaper
Micropaper · 2026-04-26T00:00:00Z
DeepSeek V4四大工程突破:极低成本重塑行业格局与推理效率

DeepSeek V4通过混合专家架构和计算优化,显著降低了AI推理成本并提升了能力。该模型使普通开发者以低成本使用强大AI,打破了算力垄断。优化的路由策略和长文本处理能力提高了计算资源利用率,促进了AI行业的创新与发展。

DeepSeek V4四大工程突破:极低成本重塑行业格局与推理效率

极道
极道 · 2026-04-25T01:02:00Z
开源大语言模型背后的架构

npx workos推出了一款AI代理,能够将身份验证直接集成到现有代码中。DeepSeek V3及其他模型采用混合专家架构,优化了计算效率和内存使用,推动了开源生态的发展。

开源大语言模型背后的架构

ByteByteGo Newsletter
ByteByteGo Newsletter · 2026-03-02T16:30:50Z
GLM-4.5发布,具备强大的推理、编码和智能代理能力

Zhipu AI发布了GLM-4.5和GLM-4.5-Air两款新AI模型,分别拥有355B和106B参数,采用混合专家架构,优化为“思考”和“非思考”模式。GLM-4.5在编码基准测试中表现优异,成功率达到90.6%。

GLM-4.5发布,具备强大的推理、编码和智能代理能力

InfoQ
InfoQ · 2025-08-07T06:05:00Z

本文介绍了MiniMax-M1模型的核心创新,包括闪电注意力和混合专家架构,显著提升了长文本处理能力。采用CISPO算法优化强化学习训练,提高效率并降低成本。模型在数学推理和工具调用等任务中表现优异,全面开源推动大模型应用普及。未来挑战包括数学推理优化和生态建设。

MiniMax-M1:闪电注意力重塑大模型推理效率,百万上下文时代来临,附技术报告英中对照版

我爱自然语言处理
我爱自然语言处理 · 2025-07-03T09:14:03Z

本研究提出了一种名为DynaMix的混合专家架构,旨在解决动态系统重建中的零样本推断能力不足问题。该方法能够在无需再培训的情况下,根据上下文信号对新动态系统进行长期演化预测,展现出在动态系统预测领域的巨大潜力。

True Zero-Shot Inference of Dynamical Systems Preserving Long-Term Statistics

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-19T00:00:00Z
Qwen 3 基准测试、比较、模型规格及更多信息

Qwen3是阿里巴巴于2025年4月29日发布的开源AI模型,参数规模从600M到32B不等。其混合专家架构实现了高效计算,支持深度推理和快速响应,训练数据涵盖119种语言,适合编程和逻辑问题解决。

Qwen 3 基准测试、比较、模型规格及更多信息

DEV Community
DEV Community · 2025-05-01T14:14:14Z
Seed-Thinking-v1.5:用强化学习推动语言模型的深度推理能力

字节跳动发布的Seed-Thinking-v1.5模型在数学、编程和科学任务中表现优异,参数量达到2000亿。其混合专家架构和强化学习方法提升了推理能力,尤其在创意写作方面表现突出。尽管在某些领域仍有不足,但其系统性方法为AI推理能力提升提供了新思路。

Seed-Thinking-v1.5:用强化学习推动语言模型的深度推理能力

我爱自然语言处理
我爱自然语言处理 · 2025-04-13T03:30:43Z
Kimi-VL:开源多模态模型的新标杆——解读高效视觉语言混合专家模型

Kimi团队发布的Kimi-VL是一个高效的开源多模态模型,采用混合专家架构和长上下文窗口,显著提升视觉语言理解能力,超越多个闭源模型,标志着开源领域的重要突破。

Kimi-VL:开源多模态模型的新标杆——解读高效视觉语言混合专家模型

我爱自然语言处理
我爱自然语言处理 · 2025-04-10T02:54:26Z
Llama 4:解析Meta最新强大模型

Llama 4引入混合专家架构,提升了模型效率和响应速度,支持高达1000万的上下文窗口,适合复杂任务。与以往模型相比,在多模态理解和资源利用上有显著改进,开发者可通过Cloudflare轻松实现应用。

Llama 4:解析Meta最新强大模型

DEV Community
DEV Community · 2025-04-06T03:18:08Z
Meta深夜开源Llama 4!首次采用MoE,惊人千万token上下文,竞技场超越DeepSeek

Meta在周末发布了最新的AI模型系列Llama 4,包括Llama 4 Scout、Maverick和Behemoth。这些模型经过大量数据训练,具备强大的视觉理解能力,特别是Llama 4 Maverick在多项基准测试中表现优异,超越竞争对手。Scout和Maverick支持长达1000万token的上下文,适用于多种应用,且采用混合专家架构,提升推理效率和性能。

Meta深夜开源Llama 4!首次采用MoE,惊人千万token上下文,竞技场超越DeepSeek

机器之心
机器之心 · 2025-04-06T02:18:10Z

本研究提出了MoECollab框架,利用混合专家架构实现大型语言模型(LLM)的分布式协作开发,解决了集中化问题,提高了准确性,降低了计算需求,推动了LLM开发的民主化。

MoECollab: Democratizing LLM Development Through Collaborative Mixture of Experts

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-16T00:00:00Z

本研究提出了FedMoE-DA框架,旨在解决联邦学习中因客户端资源限制导致的大规模模型部署问题。该框架结合混合专家架构和领域感知的细粒度聚合策略,提升了模型的鲁棒性和通信效率,并显著减轻了服务器的通信压力。

FedMoE-DA: Domain-Aware Fine-Grained Aggregation for Federated Mixture of Experts

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-04T00:00:00Z

本文介绍了多模态大型语言模型的混合专家架构(Uni-MoE),通过稀疏并行技术提高训练和推理效率,减少性能偏差。研究展示了新框架LaRA-MoE的有效性,提升了多模态任务的表现,并提出了MoE-tuning和MoE-LLaVA等策略,解决了多模态学习中的稀疏性问题,在视觉理解上取得了显著进展。

MoExtend:针对模态和任务扩展调整新的专家

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-07T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码