量子位 ·

Mythos架构被22岁小伙“逆推”开源了！MoE和注意力借鉴DeepSeek

💡 原文中文，约1800字，阅读约需5分钟。

📝

内容提要

OpenMythos是一种新型的循环深度Transformer架构，采用MoE路由机制，通过跨专家权重共享实现高效推理。在参数量减少近一半的情况下，其性能与传统模型相当。研究表明，循环Transformer在处理未见知识组合和深度推理方面表现更佳，可能改变大模型的训练方式，受到学术界关注。

🎯

❓

OpenMythos是一种循环深度Transformer架构，采用MoE路由机制，通过跨专家权重共享和条件计算实现高效推理，参数量减少近一半，性能与传统模型相当。

循环Transformer在处理未见知识组合和深度推理方面表现更佳，能够应对系统性泛化和深度外推，解锁知识组合能力。

Kye Gomez设计的RDT架构通过循环计算让模型“想更多遍”，并使用混合专家层和MoE路由器激活不同的专家子集，提升推理效率。

OpenMythos通过跨专家权重共享和条件计算，结合循环计算机制，使得模型在参数量减少的情况下仍能保持高效推理。

循环Transformer通过多轮循环推理，能够在未见知识组合和深度推理中表现更好，而标准Transformer则在这些任务中容易失败。

未来大模型的训练方式可能从“训练更大的模型”转向“让现有模型在推理时多想几遍”，以提升推理能力和知识组合能力。

🏷️

菜场到底是靠谁活下来的
菜场仍然存在，主要服务于附近居民和灵活时间的人。尽管线上购物方便，但菜场因价格便宜、新鲜、种类丰富而受到欢迎，满足了不同需求。菜场不仅是购物方式，更反映了...
邸报 v0.1.0：一个很旧的东西新生了
邸报是一个新发布的RSS阅读器，旨在将算法推荐回归用户的RSS源。它支持本地或服务器运行，能够导入OPML和添加RSS地址。通过学习用户行为，邸报优化文章...
[MAF的Agent管道详解-05]对话历史的持久化和输入输出的增强 - Artech
ChatClientAgent封装了IChatClient对象，提供与大型语言模型（LLM）交互的能力。其响应质量受输入消息和配置选项的影响。用户可以通过...
【Rust日报】2026-05-30 Microsoft Windows Reactor：面向 Rust 的原生 WinUI 3 UI 库
微软发布了Windows Reactor，一个面向Rust开发者的原生UI库，旨在基于WinUI 3提供高效的Windows应用开发体验。该项目受到社区热...
一个人做产品：我终于把那个产品做出来了
作者开发了个人图书管理应用「我的书橱」，解决了书籍管理的问题。尽管项目规模不大，访问量少，但对他意义重大。通过AI辅助编程，他意识到发布比追求完美更重要，...
Christophe Pettus: All Your GUCs in a Row: compute_query_id
PostgreSQL 14 unified query-id computation across all subsystems, but default...