DeepSeek发布论文《条件记忆》,提出将“条件记忆”作为大语言模型的新稀疏维度,以解决知识检索的低效问题。研究表明,结合条件记忆与混合专家(MoE)可显著提升模型性能,特别是在知识推理和代码生成方面。预计新模型DeepSeek V4将应用此技术,进一步增强AI竞争力。
梁文锋因其DeepSeek模型入选2025年度《自然》十大科学人物,成为科技领域的颠覆者。该模型在AI行业产生重大影响,证明大模型不必依赖大量数据和资源。另一位入选者杜梦然因发现地球最深动物生态系统而获奖。
在浙江乌镇的世界互联网大会上,DeepSeek研究员陈德里代表创始人梁文锋发言。他对AI的未来持乐观态度,但担忧AI可能在十年内取代大部分工作,带来社会挑战。他提出“价值观对齐解耦化”的新思路,强调核心价值观统一而多元价值观可定制,以适应社会多样性。
《时代》周刊发布了2025年AI领域最具影响力的100人名单,包含华为任正非、DeepSeek梁文锋等中国科技领袖,以及记者Karen Hao等非技术背景人物。前OpenAI首席科学家Ilya Sutskever创办的公司估值已达320亿美元,而机器学习之父Hinton等人未上榜。
DeepSeek的梁文锋团队在ACL 2025获得最佳论文奖,提出了原生稀疏注意力(NSA)机制,处理长文本的速度提升了11倍,性能超越传统模型。NSA通过动态分层策略优化计算,显著提高推理和训练效率,尤其在复杂推理任务中表现突出。
Kimi发布了全新开源大模型K2,参数达到1T,激活参数32B,特别擅长代码和数学推理任务。K2采用MoE架构,支持128K上下文,旨在展示技术领先性。此次开源遵循修改版MIT协议,Kimi仍将继续自研大模型。
Robinhood CEO Vlad Tenev与Tudor Achim联合创立了人工智能初创公司Harmonic AI,专注于解决复杂数学问题,目标是构建超越人类的数学能力AI系统。Harmonic AI已完成B轮融资,估值接近9亿美元,致力于实现通用人工智能(AGI)。
DeepSeek是一家中国初创公司,凭借在人工智能领域的突破迅速崛起,挑战西方主导的AI产品。创始人梁文峰低调专注,鼓励团队创新。尽管面临美国出口管制,中国AI技术依然快速发展,DeepSeek的成功促使人们重新评估中国的AI实力。
DeepSeek最新论文介绍了V3大模型的降本方法,解决了内存不足、计算效率低和通信速度慢的问题。通过内存优化、多头潜在注意力和混合专家模型等技术,DeepSeek-V3实现了高效训练和推理,降低了成本并提升了性能。未来AI硬件需向低精度计算和网络拓扑优化发展,以支持更大规模的模型训练。
DeepSeek 发布了两个新工具 DualPipe 和 EPLB,旨在提升 AI 训练效率。DualPipe 通过双向流水线并行算法消除计算延迟,EPLB 优化专家并行负载均衡,帮助社区更好地理解和使用 DeepSeek 模型。
DeepSeek今日发布三项开源技术,旨在优化并行策略,包括DualPipe算法实现前后计算重叠、EPLB负载均衡确保GPU资源均衡,以及Profiling Data提供性能分析。发布后10分钟内,三项技术在GitHub上获得近300个星标,广受好评。
DeepSeek 发布了一种名为 NSA 的稀疏注意力机制,旨在提高长上下文的训练和推理效率。该机制通过硬件对齐和可训练设计,显著降低计算开销,同时保持性能。实验结果表明,NSA 在多个基准测试中表现优异,尤其在长上下文任务中展现出卓越的能力和加速效果。
梁文锋,1985年出生于广东湛江,数学天才,后成为AI先锋。他在浙江大学深造后创办雅克比投资和幻方量化,推动量化投资发展。2023年成立DeepSeek,进军通用人工智能,取得显著成就,受到家乡人民热烈欢迎。
DeepSeek-R1在硅谷大模型竞技榜上名列前三,创始人梁文锋强调创新与开源的重要性。DeepSeek专注于AGI研究,采用革命性架构以降低成本,吸引了广泛关注。尽管面临挑战,DeepSeek仍致力于推动技术进步和社会公益。
本周科技动态包括天山胜利隧道贯通、AI模型DeepSeek V3崛起、AirTag充电盒发明及新加坡无护照出入境。DeepSeek V3因其低成本和高效能受到关注,创始人梁文锋强调中国应走向技术前沿。
完成下面两步后,将自动完成登录并继续当前操作。