标签

 transformer 

相关的文章:

本文汇集了最新的Transformer相关研究,探讨了新架构的出现及其对传统模型的挑战,展现了深度学习领域的前沿动态与未来趋势。

Transformer危!谷歌MoR架构发布:内存减半推理速度还翻倍

保持大模型性能的同时降低计算和内存成本

谷歌推出的新架构Mixture-of-Recursions(MoR)实现了推理速度提升2倍,内存减少50%。该架构通过统一参数共享和自适应计算,降低了计算和内存成本,同时保持了大模型的性能。MoR在多个参数规模上优于传统Transformer,展现出更高的计算效率和可扩展性。

原文中文,约2900字,阅读约需7分钟。发表于:
阅读原文
发表于:
阅读原文

【Rust日报】2025-07-15 GPT-rs:用 Rust 实现和训练 Transformer & Tokenizer

2025 年 6 月 Rust Jobs Report 阅读:https://filtra.io/rust/jobs-report/jun-25 Rust-Analyzer 更新日志 新功能:支持折叠多行参数列表;函数体、在全局符号中包含枚举变体;为元组结构体启用 generate_new 功能。 修复:修复文档渲染中的崩溃、解析器错误、dyn 提示显示问题、naked_asm! 和...

2025年6月Rust更新包括Rust-Analyzer的新功能和改进,提升了功能性和稳定性。gpt-rs库简化了GPT模型调用,Uzu引擎优化了AI推理。ZeroFS增强了NFS服务器性能,Thunk支持XP,EdgeLinkd兼容Node-RED。Rodio音频库更新了API,intern-mint实现了字节切片共享。Bitpiece库简化了位字段操作,Rwatch替代传统的watch命令。

【Rust日报】2025-07-15 GPT-rs:用 Rust 实现和训练 Transformer & Tokenizer
原文中文,约7800字,阅读约需19分钟。发表于:
阅读原文

入选ICML 2025,Meta/剑桥/MIT提出全原子扩散Transformer框架,首次实现周期性与非周期性原子系统统一生成

如下图所示,随着 DiT 去噪器参数量从 3,200 万(ADiT-S,蓝色)增至1.3 亿(ADiT-B,橙色),再到 4.5 亿(ADiT-L,绿色),即使在约 13 万个样本的中等规模数据集上,扩散训练损失持续降低,有效性比率稳步提升,呈现出显著的规模效应。构建起统一的原子扩散模型架构,一举攻克蛋白质结构预测与设计任务。值得注意的是,ADiT 基于标准 Transformer...

ADiT模型通过结合潜在表示与Transformer技术,突破了原子系统建模的周期性与非周期性限制,显著提高了生成效率与可扩展性,为新材料和药物设计提供了重要支持。

原文中文,约4300字,阅读约需11分钟。发表于:
阅读原文
发表于:
阅读原文
发表于:
阅读原文
发表于:
阅读原文
原文中文,约3100字,阅读约需8分钟。发表于:
阅读原文
原文中文,约2100字,阅读约需5分钟。发表于:
阅读原文
发表于:
阅读原文