小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
新款NVIDIA Nemotron 3 Super为智能代理AI提供5倍更高的吞吐量

NVIDIA推出的Nemotron 3 Super模型拥有1200亿参数,支持复杂多智能体系统,具备高效推理能力和1百万token的上下文窗口,避免目标漂移,广泛应用于多个行业,提升工作效率,支持开发者自定义和部署。

新款NVIDIA Nemotron 3 Super为智能代理AI提供5倍更高的吞吐量

NVIDIA Blog
NVIDIA Blog · 2026-03-11T16:00:21Z

蚂蚁灵波开源的LingBot-VA具身世界模型结合视频生成与机器人控制,能够实时推演和执行动作,在复杂任务中表现优异,成功率显著提升,采用新架构实现高效推理,推动具身智能的发展。

让世界模型直接控制机器人动作,蚂蚁灵波开源具身世界模型LingBot-VA

量子位
量子位 · 2026-01-30T06:24:54Z
宣布vLLM-Omni:轻松、快速且经济的全模态模型服务

vLLM-Omni是vLLM生态系统的重要扩展,支持全模态AI模型的文本、图像、音频和视频处理,优化内存管理,简化使用并提升性能,计划扩展模型支持以推动高效推理。

宣布vLLM-Omni:轻松、快速且经济的全模态模型服务

vLLM Blog
vLLM Blog · 2025-11-30T00:00:00Z

王冠开发的27M小模型HRM采用仿脑设计,克服了Transformer的局限性。通过分层循环模块和近似梯度技术,HRM实现了高效推理,准确率超过大型模型。尽管参数较少,HRM在特定任务中表现优异,展现出新架构的潜力。

又是王冠:27M小模型超越o3-mini!拒绝马斯克的00后果然不同

量子位
量子位 · 2025-08-10T05:34:26Z

清华大学与面壁智能团队推出的MiniCPM 4模型,提供0.5B和8B参数规模,训练开销仅为22%。该模型在长文本处理上实现5倍加速,采用稀疏注意力架构,性能超越多款同类模型,适合端侧设备,具备高效推理能力。

0.5B以小搏大拿下端侧模型新SOTA:4090可跑,长文本处理5倍常规加速丨清华&面壁开源

量子位
量子位 · 2025-06-10T07:48:29Z

本研究探讨了大型语言模型在硬件可及性和能源消耗方面的高资源需求,并提出了一种后训练量化技术的系统评估。通过分析不同的量化方案,旨在实现高效推理。

Resource-Efficient Language Models: Quantization for Fast and Accessible Inference

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-13T00:00:00Z

本研究提出了Tina微型推理模型系列,采用低秩适应(LoRA)技术,在仅有1.5亿参数的基础上实现高效推理。Tina在计算成本低的情况下,其推理性能与现有模型竞争,甚至超越。

Tiny Reasoning Models via LoRA

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-22T00:00:00Z
Mamba M1:可扩展的高效推理降低计算成本30%

Mamba M1模型结合状态空间模型与变换器,实现高效推理,计算成本降低30%。该模型在可扩展性和动态推理路径选择方面表现优异。

Mamba M1:可扩展的高效推理降低计算成本30%

DEV Community
DEV Community · 2025-04-19T00:02:03Z

本研究总结了高效推理的最新进展,针对复杂逻辑任务的高计算开销,提出了压缩推理链、开发紧凑语言模型和提升推理速度三种解决方案。

Efficient Inference Models: A Review

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-15T00:00:00Z
Ollama与vLLM:大型语言模型框架的详细比较

大型语言模型(LLM)正在改变技术互动方式。Ollama和vLLM是两个开源工具,分别优化LLM的本地部署和高效推理。Ollama注重用户友好和数据隐私,适合离线研究和内容创作;vLLM则在高吞吐量和资源利用上表现优异,适合高性能应用。选择工具应根据具体需求。

Ollama与vLLM:大型语言模型框架的详细比较

DEV Community
DEV Community · 2025-04-13T09:11:45Z
OpenAI o3-mini

OpenAI发布了o3-mini,这是一个专注于STEM领域的高效推理模型,具备更快的响应速度和更高的准确性。该模型支持多种开发者功能,允许用户根据需求选择推理强度,尤其在数学、科学和编程任务中表现优异。o3-mini旨在降低成本,同时保持高质量的推理能力,并为付费用户提供更高的消息限制。

OpenAI o3-mini

OpenAI
OpenAI · 2025-01-31T11:00:00Z
分而治之?你应该提炼你的大型语言模型的哪一部分?

研究表明,将推理任务分为问题分解和解决两个阶段能提高大型语言模型(LLMs)的效果。问题分解易于小模型提炼,而解决阶段需要大量领域知识。分解阶段有效推广,但解决能力提炼难度大,导致性能下降。结合小型分解模型与LLMs可实现高效推理。

分而治之?你应该提炼你的大型语言模型的哪一部分?

Apple Machine Learning Research
Apple Machine Learning Research · 2024-10-25T00:00:00Z

该论文提出了ITA加速器架构,用于高效推理,表现出色的能效和面积效率。

ARTEMIS:Transformer 神经网络的混合模拟 - 随机 In-DRAM 加速器

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-17T00:00:00Z

该论文提出了ITA加速器架构,用于高效推理,表现出色的能效和面积效率。

BETA: 边缘二值化能效优化的 Transformer 加速器

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-01-22T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码