小红花·文摘

我用 DeepSeek V4 手戳了个 WordPress 插件，全程花费不到 5 元

WordPress 果酱 ·

DeepSeek-V4发布，华为云首发适配

量子位 ·

读完 DeepSeek-V4 技术报告：这次最值得看的，不是“更大”，而是“更省”

清竹茶馆博客 ·

小猫都能懂的大模型原理 6 - 模型优化

UsubeniFantasy ·

谷歌在NeurIPS 2025上推出了新架构Titans和MIRAS，突破了Transformer在超长上下文处理中的限制。Titans结合了RNN的速度与Transformer的性能，能够动态更新记忆，扩展上下文至200万token。MIRAS则提供统一的序列建模框架，优化信息整合与记忆更新。这些新架构在处理长序列时优于现有模型，标志着AI领域的重要进展。

谷歌新架构突破Transformer超长上下文瓶颈！Hinton灵魂拷问：后悔Open吗？

量子位 ·

DeepSeek-V3 API 发布：128K 超长上下文，打造更强大的AI应用

APISpace ·

本研究提出了一种高效训练方法，将超长上下文大语言模型的上下文长度从128K扩展至4M，以满足文档和视频理解等应用需求。研究表明，该方法在长上下文基准测试中表现优异，同时保持了模型的指令遵循和推理能力。

From 128K to 4M: Efficient Training of Ultra-Long Context Large Language Models

BriefGPT - AI 论文速递 ·

仅缩小视觉Token位置编码间隔，轻松让多模态大模型理解百万Token！清华大学，香港大学，上海AI Lab新突破

机器之心 ·

MiniMax推出了新模型MiniMax-01，支持400万token的超长上下文，性能接近DeepSeek-v3和GPT-4o。该模型采用Lightning Attention架构，显著提升处理效率。在多个基准测试中，MiniMax-Text-01在长上下文理解方面表现突出，而MiniMax-VL-01则专注于多模态任务，展现强大处理能力。该模型已在Hailuo AI上免费试用。

MiniMax开源4M超长上下文新模型！性能比肩DeepSeek-v3、GPT-4o

量子位 ·

阿里云百炼上线百万长文本模型Qwen2.5 -Turbo，百万tokens仅需0.3元

机器之心 ·