小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
实测小米最快1T大模型:吞吐量每秒1000+ Tokens,Vibe Coding七秒交付

小米推出了MiMo-V2.5-Pro-UltraSpeed模型,具备1T参数和1000+ TPS的推理速度,突破了GPU的性能限制。该模型在全栈开发任务中表现优异,能够快速生成高质量的复杂应用,推动了大模型的商业化进程。

实测小米最快1T大模型:吞吐量每秒1000+ Tokens,Vibe Coding七秒交付

量子位
量子位 · 2026-06-11T01:18:16Z
小米MiMo-v2.5-Pro-UltraSpeed推理速度达每秒一千token

小米MiMo-v2.5-Pro-UltraSpeed模型的推理速度达到每秒1000词,改变了人机互动方式。快速的AI提升了用户的对话和协作效率,而慢速模型则会导致思维中断,影响体验。未来,速度将成为AI智能的重要维度。

小米MiMo-v2.5-Pro-UltraSpeed推理速度达每秒一千token

极道
极道 · 2026-06-08T22:37:00Z
阶跃Step 3.7 Flash登顶AA榜:速度、性价比、端到端三项第一

阶跃星辰推出的Step 3.7 Flash模型在速度和成本上表现优异,推理速度超过400 tokens/s,单任务成本仅为Claude Opus 4.6的1/9,适合企业级应用,推动AI商业化进程。

阶跃Step 3.7 Flash登顶AA榜:速度、性价比、端到端三项第一

量子位
量子位 · 2026-06-05T06:12:16Z
JetBrains开源Mellum2,以超越Claude Code的局限

JetBrains发布了Mellum2,这是一个开源的12B参数编码模型,专注于AI系统的基础设施层。Mellum2支持更广泛的任务,如模型协调和子代理工作负载,采用混合专家架构以提升推理速度。该模型在代码生成任务中表现优异,但在广泛推理和知识评估方面略逊于其他模型。目前已在Hugging Face上发布,企业可选择自我托管。

JetBrains开源Mellum2,以超越Claude Code的局限

The New Stack
The New Stack · 2026-06-01T20:47:26Z
大语言模型速度基准:指标与基础设施指南

本文讨论了大语言模型(LLM)推理速度的关键指标及其对用户体验的影响,强调选择合适模型和优化指标的重要性。介绍了TTFT、TTFAT、输出速度等六个性能指标,并提到语义缓存技术可以减少推理瓶颈,提高响应速度和降低成本。Redis作为实时数据平台,支持语义缓存和向量搜索,适合构建高效的GenAI应用。

大语言模型速度基准:指标与基础设施指南

Redis Blog
Redis Blog · 2026-05-10T00:00:00Z
一分钟读论文:《用扩散语言模型统一多模态理解与生成》

蚂蚁集团的论文《LLaDA2.0-Uni》提出了一种离散扩散语言模型,旨在统一视觉理解和图像生成。该模型通过将图像压缩为离散语义token,并利用混合专家架构实现文本和视觉token的并行处理,显著提升推理速度。LLaDA2.0-Uni在视觉理解和图像生成任务上表现优异,展现出理解与生成的连续交互能力。

一分钟读论文:《用扩散语言模型统一多模态理解与生成》

Micropaper
Micropaper · 2026-04-26T00:00:00Z
ERNIE-Image上线星河社区,无限生图,高效创作!一站式玩转指南来了

百度发布了ERNIE-Image和ERNIE-Image-Turbo开源模型,前者为完整版本,后者为高效蒸馏版,推理速度更快。用户可在星河社区免费体验,适用于海报制作等实际场景,模型使用简单,适合开发者快速上手。

ERNIE-Image上线星河社区,无限生图,高效创作!一站式玩转指南来了

百度大脑
百度大脑 · 2026-04-16T11:07:16Z
单张显卡跑出15倍推理速度,aiX-apply-4B小模型加速企业AI研发落地

硅心科技推出的aiX-apply-4B模型在代码变更应用中表现优异,准确率达到93.8%,推理速度提升15倍,且仅需一张显卡即可高效运行,解决了企业算力不足的问题。

单张显卡跑出15倍推理速度,aiX-apply-4B小模型加速企业AI研发落地

量子位
量子位 · 2026-03-30T00:41:45Z

Mamba是一种新型选择性状态空间模型,优化了长序列数据处理,推理速度比Transformer快5倍,支持跨模态应用。Rust实现的Mamba-RS具备高效的推理和训练能力,并支持CUDA加速,适用于多种场景。

【Rust日报】2026-03-21 Mamba-RS: Rust实现的Mamba选择性状态空间模型

Rust.cc
Rust.cc · 2026-03-27T06:34:15Z
MambaJSCC:基于广义状态空间模型的自适应联合信源信道编码器

上海交通大学研究团队在语义通信架构方面取得进展,提出了MambaJSCC架构,该架构具有线性复杂度和内生信道自适应特性,显著提升了传输性能和推理速度,为6G网络提供了新方案。

MambaJSCC:基于广义状态空间模型的自适应联合信源信道编码器

实时互动网
实时互动网 · 2026-03-02T06:30:04Z
LLMs中的KV缓存:开发者指南

本文介绍了自回归变换器推理中键值(KV)缓存的作用,如何通过缓存已计算的键和值来消除冗余计算,从而显著提高生成速度,推理速度提升可达3-5倍。尽管内存使用增加,但在实际应用中,这种提升是值得的。理解KV缓存为进一步优化推理提供了基础。

LLMs中的KV缓存:开发者指南

MachineLearningMastery.com
MachineLearningMastery.com · 2026-02-26T14:43:49Z
AI 正在“矿机化”:成本降 10 倍,GPU 会被淘汰吗?

近日,一家公司推出了将大模型直接写入ASIC芯片的技术,推理速度达到17000 Token/s,耗电和成本比英伟达显卡低10倍。这种ASIC有望改变算力竞争格局,未来可能主导大模型推理,而GPU则回归训练和通用计算。

AI 正在“矿机化”:成本降 10 倍,GPU 会被淘汰吗?

小众软件
小众软件 · 2026-02-23T09:29:54Z

MiniMax推出的M2.5模型具备全栈编程能力,支持多种编程语言,能够高效完成复杂任务。其性能与Claude Opus 4.6相当,推理速度达到100TPS,每小时成本仅为1美元。M2.5在智能体环境中表现优异,能够独立进行财务分析和项目开发,标志着AI应用的快速发展。

1美金时薪雇个全栈替身,MiniMax M2.5让打工人也能体验当老板的感觉

量子位
量子位 · 2026-02-13T03:16:14Z
机器学习从业者的推测解码指南

本文介绍了推测解码的工作原理及其在大型语言模型推理中的应用。推测解码通过小型草稿模型生成多个候选标记,并利用大型目标模型并行验证,从而显著提高推理速度,达到2-3倍的加速效果。该方法有效解决了内存带宽瓶颈问题,适用于翻译、摘要等任务。选择合适的草稿模型是实现最佳效果的关键。

机器学习从业者的推测解码指南

MachineLearningMastery.com
MachineLearningMastery.com · 2026-02-11T11:00:11Z
DeploySharp 震撼升级!支持PP-OCR 全系列模型极速推理,开源免费多平台支持,RTX 3060 上狂飙至 23ms!我的项目我做主,从此加速不求人

DeploySharp 0.0.8 版本升级,支持 PP-OCR v4/v5 模型,RTX 3060 上推理速度可达 23ms。该框架为 C# 开发者提供跨平台模型部署解决方案,集成 OpenVINO、TensorRT 和 ONNX Runtime,简化模型加载和推理,提高开发效率。

DeploySharp 震撼升级!支持PP-OCR 全系列模型极速推理,开源免费多平台支持,RTX 3060 上狂飙至 23ms!我的项目我做主,从此加速不求人

dotNET跨平台
dotNET跨平台 · 2026-02-05T23:42:45Z
将您的机器学习模型导出为ONNX格式

本文介绍了如何将PyTorch、scikit-learn和TensorFlow/Keras模型导出为ONNX格式,并比较了PyTorch与ONNX Runtime在CPU上的推理准确性和速度。文章详细描述了在CIFAR-10数据集上微调ResNet-18模型、验证数值一致性以及将其他框架模型转换为ONNX格式的步骤。结果表明,ONNX在保持相同预测质量的同时,提供了更快的推理速度,简化了模型的部署过程。

将您的机器学习模型导出为ONNX格式

MachineLearningMastery.com
MachineLearningMastery.com · 2026-02-04T14:35:37Z

阶跃星辰发布了开源基座模型Step 3.5 Flash,专为实时Agent工作流设计,推理速度可达每秒350个token。该模型采用稀疏MoE架构,提升推理效率,降低企业应用大模型的门槛。多家芯片厂商已完成适配,促进模型与算力的协同发展。

阶跃星辰发布最强开源基座模型 Step 3.5 Flash,多家头部芯片厂商已完成适配

量子位
量子位 · 2026-02-02T03:14:45Z

蚂蚁集团推出的医疗AI大模型“蚂蚁·安诊儿”开源后迅速登顶多项医疗榜单,具备超过200 tokens/s的推理速度,专为真实医疗场景设计,支持中小型医疗机构的实时交互。该模型在医疗知识问答和复杂推理方面表现优异,推动医疗AI的实际应用。

蚂蚁再把医疗AI卷出新高度!蚂蚁·安诊儿医疗大模型开源即SOTA

量子位
量子位 · 2026-01-09T12:10:44Z

英伟达以200亿美元收购Groq,以应对谷歌TPU的竞争。Groq的LPU在推理速度上优于GPU和TPU,但内存容量较小,需要多颗芯片协同工作。尽管成本较高,市场对速度的需求持续增长,英伟达希望借此提升推理能力,拓展业务。

老黄200亿「钞能力」回应谷歌:联手Groq,补上推理短板

量子位
量子位 · 2025-12-28T14:35:58Z
vLLM-Omni扩散缓存加速

vLLM-Omni更新了性能,支持Cache-DiT和TeaCache等缓存加速方法,显著提升扩散模型推理速度,图像生成速度提高1.5到2倍,质量损失极小。Cache-DiT在图像编辑任务中表现尤为突出,速度提升可达2.38倍。

vLLM-Omni扩散缓存加速

vLLM Blog
vLLM Blog · 2025-12-19T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码