小红花·文摘

Tensor Fusion - 一种开源的GPU虚拟化和资源池解决方案，旨在提升集群利用率...

云原生 ·

LongCat-Flash-Omni 正式发布并开源：开启全模态实时交互时代

实时互动网 ·

本文介绍了physical intelligence公司推出的实时动作分块技术，旨在提升视觉-语言-动作模型（VLA）的实时控制能力。该技术通过异步机制和修复方法，解决了模型推理延迟和动作不连贯的问题，使机器人能够更精确地执行复杂任务。

实时动作分块RTC——为解决高延迟，让π0.5也可以点燃火柴、插入网线：执行当前动作分块时生成下一个分块，且已执行的冻结未执行的则补全

结构之法算法之道 ·

SPD：大语言模型高效张量并行的同步点丢弃技术

Apple Machine Learning Research ·

本研究提出了一种新的语音推测解码（SSD）框架，旨在解决自回归语音合成模型的推理延迟问题。SSD通过轻量级草稿模型生成候选标记序列，推理速度提高了1.4倍，同时保持了高保真度和自然性。

Accelerating Autoregressive Speech Synthesis Inference Using Speech Speculative Decoding

BriefGPT - AI 论文速递 ·

华为提出OmniPlacement方法，通过优化混合专家模型中的专家分配，降低推理延迟约10%，提升吞吐量。该方法动态调整专家优先级、冗余部署和实时调度，解决专家负载不均的问题，确保高负载下系统稳定运行，并计划开源。

华为：让DeepSeek的“专家们”动起来，推理延迟降10%！

量子位 ·

该研究提出了FORTRESS框架，旨在解决大型视觉和语言模型在处理分布外故障时的推理延迟问题，实时生成安全后备策略，从而提高系统安全性和规划成功率。

Real-time Out-of-Distribution Fault Prevention through Multimodal Reasoning

BriefGPT - AI 论文速递 ·

本研究提出了一种资源感知的Transformer架构分区算法，旨在解决边缘环境中大型语言模型推理的内存过载和高延迟问题。该算法动态更新分区决策，优化注意力头的分配与迁移，实验结果表明推理延迟与最优解相差仅15%至20%，显著提升了推理速度和内存效率。

Large Language Model Partitioning for Low-Latency Inference at the Edge

BriefGPT - AI 论文速递 ·

本研究提出共享RAG-DCache，通过共享磁盘键值缓存管理，解决大型语言模型推理延迟问题。该方法在多实例环境下显著提高推理吞吐量，提升15~71%，延迟降低12~65%。

Shared Disk KV Cache Management for Efficient Multi-Instance Inference in RAG-Powered LLMs

BriefGPT - AI 论文速递 ·

本研究提出了一种高效的草拟模型，解决了大语言模型在投机解码中的记忆需求、短训练数据与长上下文推理的挑战，显著提升了长上下文任务的性能并减少了推理延迟。

LongSpec: Efficient Drafting and Verification for Long Context Speculative Decoding

BriefGPT - AI 论文速递 ·

本文讨论了基于Transformer的文本嵌入模型在参数增加时的推理延迟和内存使用问题。提出的Nomic Embed v2是首个通用的专家混合文本嵌入模型，性能优于同类模型，具有重要的应用潜力。

Training Sparse Mixture of Experts Text Embedding Models

BriefGPT - AI 论文速递 ·

本研究提出了一种改进的Chinchilla扩展法，通过优化模型参数、训练标记和结构，Morph-1B模型在保持准确性的同时，推理延迟效率提高了1.8倍。

Efficient Inference for Scalable Language Models

BriefGPT - AI 论文速递 ·

本研究探讨了大型语言模型在飞行轨迹预测中的应用，重构问题和构建数据集显著提高了预测准确性，但高推理延迟限制了实时应用。

用于单步和多步飞行轨迹预测的大型语言模型

BriefGPT - AI 论文速递 ·

本研究提出RE-POSE框架，旨在解决边缘设备实时物体检测中的计算资源限制和深度神经网络的高需求问题。通过强化学习驱动的动态聚类算法，优化了检测精度与延迟，并采用并行边缘卸载方案，显著提高了检测精度，减少了推理延迟，性能优于现有方法。

RE-POSE: Synergistic Reinforcement Learning-Driven Partitioning and Edge Offloading for Edge Object Detection

BriefGPT - AI 论文速递 ·

本研究提出了一种新方法，通过在边缘设备与中央服务器之间划分深度神经网络，解决资源受限设备中的语义分割推理延迟问题，实现数据本地处理，显著降低延迟。

使用分割学习最小化计算机视觉中的语义分割延迟

BriefGPT - AI 论文速递 ·

本研究提出FluidML框架，以优化边缘设备上的机器学习模型推理，显著提升速度和内存效率。评估结果显示，推理延迟最多减少25.38%，峰值内存使用率降低41.47%。

FluidML: Fast and Memory-Efficient Inference Optimization

BriefGPT - AI 论文速递 ·

现代自回归语言模型在自然语言处理上表现出色，但存在一些局限性。本文评估了得分熵离散扩散（SEDD）方法，发现其是自回归生成的有效替代方案，尽管在短提示生成上略逊于GPT-2，但在推理延迟方面更为高效。

基于PLM的离散扩散语言模型与熵自适应Gibbs采样

BriefGPT - AI 论文速递 ·

提出了DVFO框架，通过优化边缘设备的CPU、GPU和内存频率，以及云服务器的特征映射卸载，提升了DNN模型在不同网络条件下的能效和推理延迟。实验结果表明，能耗降低33%，推理延迟最高减少54%。

动态拆分：一种能源意识推断的硬件-软件协同设计框架

BriefGPT - AI 论文速递 ·

论文提出了一种“块注意力”机制，提高了RAG模型的效率和速度。通过将输入文本分块处理，专注于最相关部分，减少了推理延迟。实验表明，该方法在多项基准测试中表现优异，推理延迟降低50%。尽管对全局上下文处理不足，但为高效低延迟AI系统开发做出了重要贡献。

块注意力机制提升检索增强AI模型的快速高效文本生成

DEV Community ·

该研究提出AtSpeed对齐框架，通过优化top-K序列对齐和引入放宽采样验证策略，减少模型调用，从而降低大型语言模型生成推荐中的推理延迟。实验表明，在严格top-K验证下，AtSpeed加速近2倍，放松验证下最高可达2.5倍。

基于大型语言模型的生成推荐高效推理

BriefGPT - AI 论文速递 ·

Tensor Fusion - 一种开源的GPU虚拟化和资源池解决方案，旨在提升集群利用率...

LongCat-Flash-Omni 正式发布并开源：开启全模态实时交互时代

实时动作分块RTC——为解决高延迟，让π0.5也可以点燃火柴、插入网线：执行当前动作分块时生成下一个分块，且已执行的冻结 未执行的则补全

SPD：大语言模型高效张量并行的同步点丢弃技术

Accelerating Autoregressive Speech Synthesis Inference Using Speech Speculative Decoding

华为：让DeepSeek的“专家们”动起来，推理延迟降10%！

Real-time Out-of-Distribution Fault Prevention through Multimodal Reasoning

Large Language Model Partitioning for Low-Latency Inference at the Edge

Shared Disk KV Cache Management for Efficient Multi-Instance Inference in RAG-Powered LLMs

LongSpec: Efficient Drafting and Verification for Long Context Speculative Decoding

Training Sparse Mixture of Experts Text Embedding Models

Efficient Inference for Scalable Language Models

用于单步和多步飞行轨迹预测的大型语言模型

RE-POSE: Synergistic Reinforcement Learning-Driven Partitioning and Edge Offloading for Edge Object Detection

使用分割学习最小化计算机视觉中的语义分割延迟

FluidML: Fast and Memory-Efficient Inference Optimization

基于PLM的离散扩散语言模型与熵自适应Gibbs采样

动态拆分：一种能源意识推断的硬件-软件协同设计框架

块注意力机制提升检索增强AI模型的快速高效文本生成

基于大型语言模型的生成推荐高效推理

实时动作分块RTC——为解决高延迟，让π0.5也可以点燃火柴、插入网线：执行当前动作分块时生成下一个分块，且已执行的冻结未执行的则补全