小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

面壁智能推出SALA混合注意力架构,支持处理百万上下文,显著提升长文本推理效率。MiniCPM-SALA模型在5090显卡上成功运行,已开源,推动端侧智能发展。

9B端侧开源模型跑通百万上下文,面壁全新稀疏-线性混合注意力架构SALA立功了!

量子位
量子位 · 2026-02-11T13:06:27Z
GPT 5.2模型现已在Vercel AI Gateway上可用

OpenAI推出了性能更强的GPT-5.2模型,适用于专业知识、编码和长文本推理。AI Gateway提供三种模型,支持不同复杂度的任务,并实现统一API调用和智能路由。

GPT 5.2模型现已在Vercel AI Gateway上可用

Vercel News
Vercel News · 2025-12-11T13:00:00Z

DeepSeek最新模型V3.2-Exp上线,采用新稀疏注意力机制DSA,提升长文本推理效率,并开源TileLang和CUDA算子,API价格降至五折,国庆礼包也令人惊喜。

DeepSeek新模型上线!引入DSA新稀疏注意力,还又狙了CUDA一枪

量子位
量子位 · 2025-09-29T10:52:21Z

阿里开源的长文本深度思考模型QwenLong-L1在长文本推理中表现优异,采用渐进式强化学习解决训练难题。其32B版本性能与Claude-3.7相当,成功过滤干扰信息,提升推理准确性。通过预热微调和分阶段强化学习,模型逐步适应长文本,显著超越传统模型。

阿里开源长文本深度思考模型!渐进式强化学习破解长文本训练难题

量子位
量子位 · 2025-05-27T07:08:28Z
在长文本上比Flash Attention快10倍!清华等提出APB序列并行推理框架

清华大学等机构提出APB框架,利用稀疏注意力机制显著提升长文本推理效率,速度比传统方法快10倍,有效解决长距离语义依赖问题,适用于大模型服务。

在长文本上比Flash Attention快10倍!清华等提出APB序列并行推理框架

机器之心
机器之心 · 2025-03-12T02:31:33Z
突破:语言人工智能模型可以从自身输出中学习,增强长文本推理能力

大型语言模型(LLMs)在长文本推理中表现优异。研究表明,适当的提示策略可以提升LLMs的自我推理能力,从而增强其长文本推理能力。

突破:语言人工智能模型可以从自身输出中学习,增强长文本推理能力

DEV Community
DEV Community · 2024-11-16T06:55:23Z

这篇文章介绍了一种名为“树注意力”的新型注意力机制,可以在多个GPU上并行运行,提高长文本推理的速度。树注意力的关键之处在于通信步数随设备数量成对数增长,而不是线性增长,因此随着设备数量增大,其优势更加明显。与之前的环注意力相比,树注意力不仅可以节省峰值内存占用,还能保持完整的注意力计算。树注意力的设计还充分利用了GPU集群的两级拓扑特点,进一步提高了性能。这项研究对于高推理需求的大型公司非常重要。

30行代码,500万长文本推理提速8倍!「树注意力」让GPU越多省的越多

量子位
量子位 · 2024-08-12T04:27:09Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码