小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
Tensor Fusion - 一种开源的GPU虚拟化和资源池解决方案,旨在提升集群利用率...

Tensor Fusion是一种针对GPU集群的虚拟化和资源池解决方案,旨在提升集群利用率和降低推理延迟。它支持动态GPU池、低延迟推理、自动扩展和调度,适合高推理密度和多租户环境,有效处理多模型和多租户工作负载。

Tensor Fusion - 一种开源的GPU虚拟化和资源池解决方案,旨在提升集群利用率...

云原生
云原生 · 2026-01-06T10:34:15Z
LongCat-Flash-Omni 正式发布并开源:开启全模态实时交互时代

美团推出了LongCat-Flash-Omni模型,参数达到5600亿,支持低延迟音视频交互,表现优异。该模型在多模态任务中实现了开源最先进水平,具备强大的文本、图像、音频和视频理解能力,有效解决了推理延迟问题。

LongCat-Flash-Omni 正式发布并开源:开启全模态实时交互时代

实时互动网
实时互动网 · 2025-11-03T02:17:46Z

本文介绍了physical intelligence公司推出的实时动作分块技术,旨在提升视觉-语言-动作模型(VLA)的实时控制能力。该技术通过异步机制和修复方法,解决了模型推理延迟和动作不连贯的问题,使机器人能够更精确地执行复杂任务。

实时动作分块RTC——为解决高延迟,让π0.5也可以点燃火柴、插入网线:执行当前动作分块时生成下一个分块,且已执行的冻结 未执行的则补全

结构之法 算法之道
结构之法 算法之道 · 2025-07-15T08:43:07Z
SPD:大语言模型高效张量并行的同步点丢弃技术

随着大语言模型的快速发展,分布式推理中的通信开销成为主要挑战。我们提出了一种新技术Sync-Point Drop(SPD),通过选择性减少注意力输出的同步,降低通信开销。SPD在保持模型准确性的同时,有效缓解了通信瓶颈,实现了约20%的推理延迟减少,准确率下降不足1%。

SPD:大语言模型高效张量并行的同步点丢弃技术

Apple Machine Learning Research
Apple Machine Learning Research · 2025-05-22T00:00:00Z

本研究提出了一种新的语音推测解码(SSD)框架,旨在解决自回归语音合成模型的推理延迟问题。SSD通过轻量级草稿模型生成候选标记序列,推理速度提高了1.4倍,同时保持了高保真度和自然性。

Accelerating Autoregressive Speech Synthesis Inference Using Speech Speculative Decoding

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-21T00:00:00Z

华为提出OmniPlacement方法,通过优化混合专家模型中的专家分配,降低推理延迟约10%,提升吞吐量。该方法动态调整专家优先级、冗余部署和实时调度,解决专家负载不均的问题,确保高负载下系统稳定运行,并计划开源。

华为:让DeepSeek的“专家们”动起来,推理延迟降10%!

量子位
量子位 · 2025-05-20T05:36:27Z

该研究提出了FORTRESS框架,旨在解决大型视觉和语言模型在处理分布外故障时的推理延迟问题,实时生成安全后备策略,从而提高系统安全性和规划成功率。

Real-time Out-of-Distribution Fault Prevention through Multimodal Reasoning

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-15T00:00:00Z

本研究提出了一种资源感知的Transformer架构分区算法,旨在解决边缘环境中大型语言模型推理的内存过载和高延迟问题。该算法动态更新分区决策,优化注意力头的分配与迁移,实验结果表明推理延迟与最优解相差仅15%至20%,显著提升了推理速度和内存效率。

Large Language Model Partitioning for Low-Latency Inference at the Edge

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-05T00:00:00Z

本研究提出共享RAG-DCache,通过共享磁盘键值缓存管理,解决大型语言模型推理延迟问题。该方法在多实例环境下显著提高推理吞吐量,提升15~71%,延迟降低12~65%。

Shared Disk KV Cache Management for Efficient Multi-Instance Inference in RAG-Powered LLMs

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-16T00:00:00Z

本研究提出了一种高效的草拟模型,解决了大语言模型在投机解码中的记忆需求、短训练数据与长上下文推理的挑战,显著提升了长上下文任务的性能并减少了推理延迟。

LongSpec: Efficient Drafting and Verification for Long Context Speculative Decoding

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-24T00:00:00Z

本文讨论了基于Transformer的文本嵌入模型在参数增加时的推理延迟和内存使用问题。提出的Nomic Embed v2是首个通用的专家混合文本嵌入模型,性能优于同类模型,具有重要的应用潜力。

Training Sparse Mixture of Experts Text Embedding Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-11T00:00:00Z

本研究提出了一种改进的Chinchilla扩展法,通过优化模型参数、训练标记和结构,Morph-1B模型在保持准确性的同时,推理延迟效率提高了1.8倍。

Efficient Inference for Scalable Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-30T00:00:00Z

本研究探讨了大型语言模型在飞行轨迹预测中的应用,重构问题和构建数据集显著提高了预测准确性,但高推理延迟限制了实时应用。

用于单步和多步飞行轨迹预测的大型语言模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-29T00:00:00Z

本研究提出RE-POSE框架,旨在解决边缘设备实时物体检测中的计算资源限制和深度神经网络的高需求问题。通过强化学习驱动的动态聚类算法,优化了检测精度与延迟,并采用并行边缘卸载方案,显著提高了检测精度,减少了推理延迟,性能优于现有方法。

RE-POSE: Synergistic Reinforcement Learning-Driven Partitioning and Edge Offloading for Edge Object Detection

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-16T00:00:00Z

本研究提出了一种新方法,通过在边缘设备与中央服务器之间划分深度神经网络,解决资源受限设备中的语义分割推理延迟问题,实现数据本地处理,显著降低延迟。

使用分割学习最小化计算机视觉中的语义分割延迟

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-18T00:00:00Z

本研究提出FluidML框架,以优化边缘设备上的机器学习模型推理,显著提升速度和内存效率。评估结果显示,推理延迟最多减少25.38%,峰值内存使用率降低41.47%。

FluidML: Fast and Memory-Efficient Inference Optimization

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-14T00:00:00Z

现代自回归语言模型在自然语言处理上表现出色,但存在一些局限性。本文评估了得分熵离散扩散(SEDD)方法,发现其是自回归生成的有效替代方案,尽管在短提示生成上略逊于GPT-2,但在推理延迟方面更为高效。

基于PLM的离散扩散语言模型与熵自适应Gibbs采样

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-10T00:00:00Z

提出了DVFO框架,通过优化边缘设备的CPU、GPU和内存频率,以及云服务器的特征映射卸载,提升了DNN模型在不同网络条件下的能效和推理延迟。实验结果表明,能耗降低33%,推理延迟最高减少54%。

动态拆分:一种能源意识推断的硬件-软件协同设计框架

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-31T00:00:00Z

论文提出了一种“块注意力”机制,提高了RAG模型的效率和速度。通过将输入文本分块处理,专注于最相关部分,减少了推理延迟。实验表明,该方法在多项基准测试中表现优异,推理延迟降低50%。尽管对全局上下文处理不足,但为高效低延迟AI系统开发做出了重要贡献。

块注意力机制提升检索增强AI模型的快速高效文本生成

DEV Community
DEV Community · 2024-10-07T10:04:21Z

该研究提出AtSpeed对齐框架,通过优化top-K序列对齐和引入放宽采样验证策略,减少模型调用,从而降低大型语言模型生成推荐中的推理延迟。实验表明,在严格top-K验证下,AtSpeed加速近2倍,放松验证下最高可达2.5倍。

基于大型语言模型的生成推荐高效推理

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-07T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码