小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
一分钟读论文:《元认知记忆策略优化》

中国科学技术大学、浙江大学与腾讯合作提出了MMPO算法,解决长上下文记忆中的信息衰减问题。该算法通过监控信念熵,动态调整信息检索策略,在175万token的上下文中保持97.1%的性能,显著优于传统递归总结方法,实现了计算成本与记忆精度之间的自适应平衡。

一分钟读论文:《元认知记忆策略优化》

Micropaper
Micropaper · 2026-06-02T00:00:00Z
DeepSeek-V4 技术解析:架构革新与 Coding Agent 后训练优化

DeepSeek-V4技术通过架构创新和后训练优化,显著提升了长上下文处理能力。其混合注意力机制和流形约束超连接提高了效率与稳定性。后训练阶段采用专家培养与全词表蒸馏,增强了Coding Agent的能力,提升了编程任务表现,标志着在长上下文与智能体能力结合上的重要进展。

DeepSeek-V4 技术解析:架构革新与 Coding Agent 后训练优化

jax - 走在路上
jax - 走在路上 · 2026-04-28T12:56:00Z
DeepSeek-V4来了:一百万Token上下文,意味着AI终于能“读完整本书”了吗?

DeepSeek-V4技术报告探讨了如何处理百万Token上下文,突破传统Transformer的计算瓶颈。报告介绍了两个MoE模型,强调混合注意力架构和稳定的信息传递通道,旨在提升长上下文能力,以更好地应对复杂任务。后续训练思路为先培养专家模型,再统一成一个模型,指出长上下文将成为AI的基础能力,推动模型效率重构,目标是实现高效、经济的AI应用。

DeepSeek-V4来了:一百万Token上下文,意味着AI终于能“读完整本书”了吗?

dotNET跨平台
dotNET跨平台 · 2026-04-25T00:09:04Z
五种高效的长上下文检索增强生成技术

本文介绍了五种高效的长上下文检索增强生成(RAG)技术,旨在解决注意力限制和成本挑战。这些技术包括通过重新排序解决“中间丢失”问题、利用上下文缓存减少延迟和计算成本,以及结合元数据过滤和查询扩展提高相关性,从而构建可扩展且精准的RAG系统,确保模型关注最相关的信息。

五种高效的长上下文检索增强生成技术

MachineLearningMastery.com
MachineLearningMastery.com · 2026-04-15T12:00:40Z

本文探讨了Transformer模型中注意力机制的复杂度问题,特别是O(n²)的计算和显存瓶颈。尽管已有多种降复杂度方案,如FlashAttention和Sparse Attention,但主流模型仍使用O(n²)的全注意力机制。FlashAttention优化了显存使用,提升了性能,但计算复杂度未变。长上下文的挑战涉及复杂度、质量、位置编码和训练数据等多个因素。

【Transformer 与注意力机制】18|注意力的复杂度问题

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-15T00:00:00Z
递归语言模型RLM颠覆智能体:RLM代码递归破解长上下文

RLM(递归语言模型)通过在代码沙箱中执行推理,克服了传统AI在处理长上下文时的局限性。它能够直接编写程序,解决记忆不足的问题,提升复杂任务的处理能力。RLM将大问题拆解为小问题,缓存中间结果,提高效率和稳定性。该技术在合同解析、发票处理和知识库检索等领域表现优异,标志着AI工程的重大变革。

递归语言模型RLM颠覆智能体:RLM代码递归破解长上下文

极道
极道 · 2026-04-12T01:01:00Z
微软 发布全新的多语言嵌入模型 Harrier-OSS-v1,为多种语言提供高质量的语义表示

微软推出Harrier-OSS-v1,包含三种多语言文本嵌入模型,支持32,768词元的长上下文,采用解码器架构,需指令调优以提升检索性能。在多语言MTEB v2基准测试中表现优异。

微软 发布全新的多语言嵌入模型 Harrier-OSS-v1,为多种语言提供高质量的语义表示

实时互动网
实时互动网 · 2026-04-01T03:03:14Z
LUCID Attention:给长上下文模型戴上降噪耳机

LUCID Attention 提出了一种新型注意力机制,通过去相关化 key 向量,解决了长上下文模型中的噪声和学习困境,提高了信息检索精度,计算开销几乎不变,适用于长上下文任务。

LUCID Attention:给长上下文模型戴上降噪耳机

Micropaper
Micropaper · 2026-03-02T13:30:00Z

作者探讨了AI模型的进展,分享了使用RTX4090显卡和vLLM框架的体验。通过DeepSeek的新模型,长上下文处理能力显著提升,理解和生成内容的能力增强。尽管硬件更新迅速,AI软件优化同样至关重要,展现出无限潜力。

近期LLM的部署与应用经历(3)

Mayx的博客
Mayx的博客 · 2026-02-28T16:00:00Z
麻省理工学院的递归语言模型提升了长上下文任务的表现

麻省理工学院的研究人员提出了一种递归语言模型(RLM),旨在提升大语言模型(LLM)在长上下文任务中的表现。RLM通过编程环境递归处理输入,能够处理比基础LLM长100倍的提示。其核心在于利用编程语言(如Python)生成代码,以分块或搜索正则表达式等方式预处理提示。研究表明,RLM在长上下文基准测试中优于其他策略,有效解决了上下文窗口限制的问题。

麻省理工学院的递归语言模型提升了长上下文任务的表现

InfoQ
InfoQ · 2026-01-20T14:00:00Z
长上下文长度的旋转位置嵌入

旋转位置嵌入(RoPE)是一种编码序列中标记位置的技术,分为简单RoPE和长上下文RoPE。RoPE通过旋转矩阵变换输入张量,优化语言模型在处理长文本时的性能,特别是通过调整频率来适应长上下文长度。

长上下文长度的旋转位置嵌入

MachineLearningMastery.com
MachineLearningMastery.com · 2025-12-20T15:51:36Z

T5Gemma 2是基于Gemma 3的多模态长上下文编码器-解码器模型,采用绑定词嵌入和合并注意力机制,显著减少参数量。它支持图像与文本处理,具备更大的上下文窗口和多语言能力,适合快速实验和应用。

T5Gemma 2:下一代编码器-解码器模型

The Keyword
The Keyword · 2025-12-18T18:30:00Z

T5Gemma 2是基于Gemma 3的多模态长上下文编码器-解码器模型,采用绑定词嵌入和合并注意力机制,显著减少参数数量。它支持图像和文本处理,具备更长的上下文窗口和多语言能力,适合快速实验和应用部署。

T5Gemma 2:下一代编码器-解码器模型

The Keyword
The Keyword · 2025-12-18T18:30:00Z
Kimi K2思维:我国思维模型的真正觉醒

中国的大语言模型正从“聊天模型”转向“思维模型”。Moonshot AI的Kimi K2思维模型实现了“深度推理、长上下文和工具调用连续性”的统一,标志着中国进入思维模型时代。K2强调推理能力,具备稳定的工具调用、深层推理链和256k上下文,推动中国模型与国际接轨。

Kimi K2思维:我国思维模型的真正觉醒

云原生
云原生 · 2025-11-14T08:25:26Z
在线教程丨Deepseek-OCR以极少视觉token数在端到端模型中实现SOTA

Deepseek-OCR 提出了一种通过视觉模态高效处理文本的新方法,旨在压缩信息并提升大语言模型的效率。其核心组件 DeepEncoder 和 DeepSeek3B-MoE-A570M 在低激活状态下仍能保持高解码精度,实验表明在压缩率低于 20× 时准确率约为 60%。该技术在长上下文处理和记忆遗忘机制研究中展现出巨大潜力。

在线教程丨Deepseek-OCR以极少视觉token数在端到端模型中实现SOTA

HyperAI超神经
HyperAI超神经 · 2025-11-11T04:37:18Z
递归语言模型

递归语言模型(RLM)是一种推理策略,允许语言模型在REPL环境中递归处理无限长度的输入上下文。研究表明,使用RLM的GPT-5-mini在长上下文基准测试中表现优于GPT-5,且查询成本更低。RLM通过将上下文视为变量,有效应对“上下文衰退”现象,提升了模型处理大规模文本的能力。

递归语言模型

blank
blank · 2025-10-15T00:00:00Z
一文通透Native Sparse Attention(简称NSA)——动态分层下的“原生稀疏注意力”策略:将粗粒度的token压缩与细粒度的token选择相结合

DeepSeek R1引起关注,研究者提出新注意力机制NSA,旨在提高长上下文处理效率。NSA结合硬件优化与可训练设计,克服现有稀疏注意力方法的局限性,提升模型性能与训练效率。

一文通透Native Sparse Attention(简称NSA)——动态分层下的“原生稀疏注意力”策略:将粗粒度的token压缩与细粒度的token选择相结合

结构之法 算法之道
结构之法 算法之道 · 2025-10-03T12:43:44Z
vLLM 现已支持 Qwen3-Next:极高效率的混合架构

vLLM现已支持Qwen3-Next,采用混合架构以提升长上下文处理效率,创新点包括混合注意力、高稀疏MoE和多标记预测。

vLLM 现已支持 Qwen3-Next:极高效率的混合架构

vLLM Blog
vLLM Blog · 2025-09-11T00:00:00Z
Qwen团队发布Qwen3-Coder,一个大型自主编码模型及其开源工具

Qwen团队推出了Qwen3-Coder系列代码模型,专为长上下文和多步骤编程任务设计。最强版本Qwen3-Coder-480B-A35B-Instruct拥有4800亿参数,支持256K原生令牌,强调执行和决策。该模型通过强化学习后训练,旨在提升鲁棒性和实用性。此外,Qwen还发布了开源命令行工具Qwen Code,支持多种编程环境,并计划扩展Qwen Coding Agent的能力,探索自我改进机制。

Qwen团队发布Qwen3-Coder,一个大型自主编码模型及其开源工具

InfoQ
InfoQ · 2025-07-26T17:55:00Z

MiniMax M1技术闭门会讨论了模型架构创新、强化学习训练及长上下文应用等前沿话题。与会者认为,强化学习可以在有限上下文下提升模型能力并改变输出分布。长上下文模型在法律合规分析和客户研究等企业应用中展现出巨大潜力。混合架构被视为未来主流,能提高推理效率和模型能力。

MiniMax M1全球技术闭门会实录:RL、混合架构、长上下文的下一步

量子位
量子位 · 2025-07-22T04:44:18Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码