TechWeb 全站精华 ·

DeepSeek公布全新论文，梁文锋署名

💡 原文中文，约2800字，阅读约需7分钟。

📝

内容提要

DeepSeek发布论文《条件记忆》，提出将“条件记忆”作为大语言模型的新稀疏维度，以解决知识检索的低效问题。研究表明，结合条件记忆与混合专家（MoE）可显著提升模型性能，特别是在知识推理和代码生成方面。预计新模型DeepSeek V4将应用此技术，进一步增强AI竞争力。

🎯

关键要点

DeepSeek发布论文《条件记忆》，提出将条件记忆作为大语言模型的新稀疏维度。
研究表明，结合条件记忆与混合专家（MoE）可显著提升模型性能，特别是在知识推理和代码生成方面。
论文提出U形扩展定律，建议将稀疏参数预算的20%-25%重新分配给Engram以获得最佳性能。
Engram-27B模型在知识与推理、通用推理、代码与数学等领域均取得显著提升。
DeepSeek计划于2025年春节前后发布新一代旗舰AI模型DeepSeek V4，预计将应用条件记忆技术。
DeepSeek团队持续发布新模型，推动AI技术进步，预计DeepSeek V4将对AI竞争格局产生重大影响。

🏷️

继续阅读

一分钟读论文：《文言文100%破解大模型，ICLR2026曝重大安全漏洞》
一项研究表明，古典文言文能够成功“越狱”现代大语言模型，攻击成功率达到100%。研究团队开发的CC-BOS框架利用古代智慧和生物启发算法，揭示了古典语言在...
什么是 AI，什么是大语言模型，缺点分析，以及使用技法和技巧总结
人工智能（AI）是让机器模仿人类智能的技术，大语言模型（LLM）是其新分支，能够生成文本。LLM基于统计和概率生成语言，但缺乏理解力和意识，可能出现“AI...
FAST'26 论文速递 | 华为云: 基于磁带的高性价比归档云存储 - 设计与部署
本文介绍了一种基于磁带的高效归档云存储设计，强调其低成本和适合深度冷存储的特点。系统主要以写为主，用户读操作极少，数据生命周期长。设计考虑了磁带的物理限制...
一分钟读论文：《生成式AI重构软件工程，开发者生产力提升55.8%》
软件开发范式正经历变革，从 Software 1.0 和 2.0 迈向 Software 3.0。自然语言将成为编程接口，AI 模型将负责实现，开发者需专...
黑马图像模型被Nano Banana技术负责人点赞！15人华人小队，DDIM之父&CVPR最佳论文作者带队
Luma AI推出的Uni-1模型在图像理解与生成方面表现优异，超越谷歌的Nano Banana Pro和GPT Image 1.5。该模型由不到15人的...
一分钟读论文：《全球AI感知准备度指数公布，无国做好应对准备》
一项研究显示，全球对人工智能的意识准备程度严重不足，31个国家中无一达到中等水平。英国得分49分最高，但仍属部分准备。研究指出，尽管对意识的科学理解丰富，...

DeepSeek公布全新论文，梁文锋署名

内容提要

关键要点

标签

继续阅读