小红花·文摘

2026深度评测：DeepSeek V4 vs ChatGPT 5.5 大模型选型全指南

极客技术博客’s Blog ·

让 AI 也能当“反洗钱专家“——一个通俗易懂的模型训练故事

dotNET跨平台 ·

$一文通透DeepSeek-V3.2——核心在于DeepSeek Sparse Attention(简称DSA)：让q跟最相关的k/v做注意力计算，以降低MLA的计算量$

一文通透DeepSeek-V3.2——核心在于DeepSeek Sparse Attention(简称DSA)：让q跟最相关的k/v做注意力计算，以降低MLA的计算量

结构之法算法之道 ·

实测低调上线的DeepSeek新模型：编程比Claude 4还能打，写作…还是算了吧 | 附彩蛋

爱范儿 ·

呕心整理的好用热门api

APISpace ·

清华大学与面壁智能团队推出的MiniCPM 4模型，提供0.5B和8B参数规模，训练开销仅为22%。该模型在长文本处理上实现5倍加速，采用稀疏注意力架构，性能超越多款同类模型，适合端侧设备，具备高效推理能力。

0.5B以小搏大拿下端侧模型新SOTA：4090可跑，长文本处理5倍常规加速丨清华&面壁开源

量子位 ·

Deepseek-R1：提升开源LLM标准的革命性模型

DEV Community ·

腾讯发布了开源MoE模型Hunyuan-Large，参数达3890亿，支持256k上下文长度，免费商用。该模型在数学能力和长文本处理上表现优异，采用混合路由策略和高质量合成数据，提升推理效率和训练稳定性。

腾讯发最大开源MoE模型，3890亿参数免费可商用，跑分超Llama3.1

量子位 ·

本文研究了LSTM编码器的注意力机制的可解释性，指出现有机制缺乏清晰解释。作者提出通过多样性驱动的训练目标改进LSTM结构，以提高注意力分布的质量和可解释性。同时，研究探讨了长文本处理中的注意力机制，提出新方法以增强大型语言模型的性能，并解决持续学习中的遗忘问题。

语言模型中的注意力沉没现象：实证研究

BriefGPT - AI 论文速递 ·

本文探讨了大型语言模型（LLM）在推理和内存管理中的优化方法，提出了SqueezeLLM量化框架和动态内存压缩（DMC），实现了高效的推理性能和内存节省。同时，研究提出了NACL框架和GemFilter算法，显著提高了长文本处理的效率，减少了内存使用，提升了吞吐量，为未来LLM的发展提供了新方向。

Locret：通过训练保留头增强长上下文LLM推断中的驱逐

BriefGPT - AI 论文速递 ·

本文介绍了多个针对大型语言模型（LLMs）的评估基准和新模型，包括LOT基准、LongLM模型、CritiqueLLM批判生成模型及ProxyQA框架，旨在提升长文本处理能力和生成质量。同时，研究揭示了中文任务中的评估偏差，并提出了CLongEval基准，分析了多种LLMs的性能，展示了在特定领域的应用和改进潜力。

新语：一种高效的基于大型语言模型的评论生成系统

BriefGPT - AI 论文速递 ·

本文探讨了通过新型量化技术压缩大型语言模型中的键值缓存（KV缓存），以提高推理效率和降低内存占用。提出的PyramidInfer和PyramidKV方法在保持性能的同时，显著减少了GPU内存使用。研究表明，KV缓存激活是推理过程中的主要内存消耗来源，采用多种量化策略后，模型在处理长文本时表现得到了提升，支持更长的上下文长度。

Palu: 用低秩投影压缩 KV 缓存

BriefGPT - AI 论文速递 ·

本文介绍了多种大型语言模型（LLM）优化技术，如LongMem框架、InfLLM、LLMem、LightSeq和UniMem，旨在提高长文本处理的效率和准确性。研究提出了在有限硬件条件下的微调方案和移动设备上的推理引擎Transformer-Lite，显著提升了推理速度，满足了处理更长输入序列的需求。

高效地使用 8 个 GPU 在 1 百万序列长度上训练 70 亿层次语言模型

BriefGPT - AI 论文速递 ·

ReadAgent 系统通过先进语言模型解决了上下文长度限制，提升了长文本处理能力。LongAgent 方法将上下文窗口扩展至128K，显示出相较于 GPT-4 的优势。MemWalker 通过摘要节点树处理长上下文，提升了问答性能。GraphText 框架实现了图形与自然语言的转换，增强了大型语言模型的能力。这些方法在长文本理解和图推理方面展现了显著改进。

GraphReader: 基于图的智能体构建以增强大型语言模型的长上下文能力

BriefGPT - AI 论文速递 ·

本文研究了变换器模型中注意力头的作用，强调其在上下文学习和长文本处理中的重要性。提出了LongHeads框架，以增强大语言模型的上下文处理能力，并通过注意力排序提升长文本生成性能。同时，探讨了模型在事实回忆任务中的机制及其局限性，并提出新的替代方案以提高推理效率和长程依赖利用。

检索式机制解释长上下文真实性

BriefGPT - AI 论文速递 ·

本文介绍了LongLora和LongQLora两种长文本处理技术，分别通过稀疏局部注意力和低秩矩阵自注意力机制来扩展模型上下文和减少可训练参数数量。这些技术在长文本处理方面表现出良好效果。

大模型上下文长度的超强扩展：从LongLoRA到LongQLoRA(含源码剖析)

结构之法算法之道 ·