小红花·文摘

NVIDIA Blog ·

蚂蚁灵波开源的LingBot-VA具身世界模型结合视频生成与机器人控制，能够实时推演和执行动作，在复杂任务中表现优异，成功率显著提升，采用新架构实现高效推理，推动具身智能的发展。

量子位 ·

vLLM Blog ·

王冠开发的27M小模型HRM采用仿脑设计，克服了Transformer的局限性。通过分层循环模块和近似梯度技术，HRM实现了高效推理，准确率超过大型模型。尽管参数较少，HRM在特定任务中表现优异，展现出新架构的潜力。

量子位 ·

清华大学与面壁智能团队推出的MiniCPM 4模型，提供0.5B和8B参数规模，训练开销仅为22%。该模型在长文本处理上实现5倍加速，采用稀疏注意力架构，性能超越多款同类模型，适合端侧设备，具备高效推理能力。

量子位 ·

本研究探讨了大型语言模型在硬件可及性和能源消耗方面的高资源需求，并提出了一种后训练量化技术的系统评估。通过分析不同的量化方案，旨在实现高效推理。

BriefGPT - AI 论文速递 ·

本研究提出了Tina微型推理模型系列，采用低秩适应（LoRA）技术，在仅有1.5亿参数的基础上实现高效推理。Tina在计算成本低的情况下，其推理性能与现有模型竞争，甚至超越。

BriefGPT - AI 论文速递 ·

DEV Community ·

本研究总结了高效推理的最新进展，针对复杂逻辑任务的高计算开销，提出了压缩推理链、开发紧凑语言模型和提升推理速度三种解决方案。

BriefGPT - AI 论文速递 ·

DEV Community ·

OpenAI ·

Apple Machine Learning Research ·

该论文提出了ITA加速器架构，用于高效推理，表现出色的能效和面积效率。

BriefGPT - AI 论文速递 ·

该论文提出了ITA加速器架构，用于高效推理，表现出色的能效和面积效率。

BriefGPT - AI 论文速递 ·