小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
ERNIE-Image上线星河社区,无限生图,高效创作!一站式玩转指南来了

百度发布了ERNIE-Image和ERNIE-Image-Turbo开源模型,前者为完整版本,后者为高效蒸馏版,推理速度更快。用户可在星河社区免费体验,适用于海报制作等实际场景,模型使用简单,适合开发者快速上手。

ERNIE-Image上线星河社区,无限生图,高效创作!一站式玩转指南来了

百度大脑
百度大脑 · 2026-04-16T11:07:16Z
单张显卡跑出15倍推理速度,aiX-apply-4B小模型加速企业AI研发落地

硅心科技推出的aiX-apply-4B模型在代码变更应用中表现优异,准确率达到93.8%,推理速度提升15倍,且仅需一张显卡即可高效运行,解决了企业算力不足的问题。

单张显卡跑出15倍推理速度,aiX-apply-4B小模型加速企业AI研发落地

量子位
量子位 · 2026-03-30T00:41:45Z

Mamba是一种新型选择性状态空间模型,优化了长序列数据处理,推理速度比Transformer快5倍,支持跨模态应用。Rust实现的Mamba-RS具备高效的推理和训练能力,并支持CUDA加速,适用于多种场景。

【Rust日报】2026-03-21 Mamba-RS: Rust实现的Mamba选择性状态空间模型

Rust.cc
Rust.cc · 2026-03-27T06:34:15Z
MambaJSCC:基于广义状态空间模型的自适应联合信源信道编码器

上海交通大学研究团队在语义通信架构方面取得进展,提出了MambaJSCC架构,该架构具有线性复杂度和内生信道自适应特性,显著提升了传输性能和推理速度,为6G网络提供了新方案。

MambaJSCC:基于广义状态空间模型的自适应联合信源信道编码器

实时互动网
实时互动网 · 2026-03-02T06:30:04Z
LLMs中的KV缓存:开发者指南

本文介绍了自回归变换器推理中键值(KV)缓存的作用,如何通过缓存已计算的键和值来消除冗余计算,从而显著提高生成速度,推理速度提升可达3-5倍。尽管内存使用增加,但在实际应用中,这种提升是值得的。理解KV缓存为进一步优化推理提供了基础。

LLMs中的KV缓存:开发者指南

MachineLearningMastery.com
MachineLearningMastery.com · 2026-02-26T14:43:49Z
AI 正在“矿机化”:成本降 10 倍,GPU 会被淘汰吗?

近日,一家公司推出了将大模型直接写入ASIC芯片的技术,推理速度达到17000 Token/s,耗电和成本比英伟达显卡低10倍。这种ASIC有望改变算力竞争格局,未来可能主导大模型推理,而GPU则回归训练和通用计算。

AI 正在“矿机化”:成本降 10 倍,GPU 会被淘汰吗?

小众软件
小众软件 · 2026-02-23T09:29:54Z

MiniMax推出的M2.5模型具备全栈编程能力,支持多种编程语言,能够高效完成复杂任务。其性能与Claude Opus 4.6相当,推理速度达到100TPS,每小时成本仅为1美元。M2.5在智能体环境中表现优异,能够独立进行财务分析和项目开发,标志着AI应用的快速发展。

1美金时薪雇个全栈替身,MiniMax M2.5让打工人也能体验当老板的感觉

量子位
量子位 · 2026-02-13T03:16:14Z
机器学习从业者的推测解码指南

本文介绍了推测解码的工作原理及其在大型语言模型推理中的应用。推测解码通过小型草稿模型生成多个候选标记,并利用大型目标模型并行验证,从而显著提高推理速度,达到2-3倍的加速效果。该方法有效解决了内存带宽瓶颈问题,适用于翻译、摘要等任务。选择合适的草稿模型是实现最佳效果的关键。

机器学习从业者的推测解码指南

MachineLearningMastery.com
MachineLearningMastery.com · 2026-02-11T11:00:11Z
DeploySharp 震撼升级!支持PP-OCR 全系列模型极速推理,开源免费多平台支持,RTX 3060 上狂飙至 23ms!我的项目我做主,从此加速不求人

DeploySharp 0.0.8 版本升级,支持 PP-OCR v4/v5 模型,RTX 3060 上推理速度可达 23ms。该框架为 C# 开发者提供跨平台模型部署解决方案,集成 OpenVINO、TensorRT 和 ONNX Runtime,简化模型加载和推理,提高开发效率。

DeploySharp 震撼升级!支持PP-OCR 全系列模型极速推理,开源免费多平台支持,RTX 3060 上狂飙至 23ms!我的项目我做主,从此加速不求人

dotNET跨平台
dotNET跨平台 · 2026-02-05T23:42:45Z
将您的机器学习模型导出为ONNX格式

本文介绍了如何将PyTorch、scikit-learn和TensorFlow/Keras模型导出为ONNX格式,并比较了PyTorch与ONNX Runtime在CPU上的推理准确性和速度。文章详细描述了在CIFAR-10数据集上微调ResNet-18模型、验证数值一致性以及将其他框架模型转换为ONNX格式的步骤。结果表明,ONNX在保持相同预测质量的同时,提供了更快的推理速度,简化了模型的部署过程。

将您的机器学习模型导出为ONNX格式

MachineLearningMastery.com
MachineLearningMastery.com · 2026-02-04T14:35:37Z

阶跃星辰发布了开源基座模型Step 3.5 Flash,专为实时Agent工作流设计,推理速度可达每秒350个token。该模型采用稀疏MoE架构,提升推理效率,降低企业应用大模型的门槛。多家芯片厂商已完成适配,促进模型与算力的协同发展。

阶跃星辰发布最强开源基座模型 Step 3.5 Flash,多家头部芯片厂商已完成适配

量子位
量子位 · 2026-02-02T03:14:45Z

蚂蚁集团推出的医疗AI大模型“蚂蚁·安诊儿”开源后迅速登顶多项医疗榜单,具备超过200 tokens/s的推理速度,专为真实医疗场景设计,支持中小型医疗机构的实时交互。该模型在医疗知识问答和复杂推理方面表现优异,推动医疗AI的实际应用。

蚂蚁再把医疗AI卷出新高度!蚂蚁·安诊儿医疗大模型开源即SOTA

量子位
量子位 · 2026-01-09T12:10:44Z

英伟达以200亿美元收购Groq,以应对谷歌TPU的竞争。Groq的LPU在推理速度上优于GPU和TPU,但内存容量较小,需要多颗芯片协同工作。尽管成本较高,市场对速度的需求持续增长,英伟达希望借此提升推理能力,拓展业务。

老黄200亿「钞能力」回应谷歌:联手Groq,补上推理短板

量子位
量子位 · 2025-12-28T14:35:58Z
vLLM-Omni扩散缓存加速

vLLM-Omni更新了性能,支持Cache-DiT和TeaCache等缓存加速方法,显著提升扩散模型推理速度,图像生成速度提高1.5到2倍,质量损失极小。Cache-DiT在图像编辑任务中表现尤为突出,速度提升可达2.38倍。

vLLM-Omni扩散缓存加速

vLLM Blog
vLLM Blog · 2025-12-19T00:00:00Z
小米突然发布新模型:媲美 DeepSeek-V3.2,把手机的性价比卷到 AI

小米发布了开源模型MiMo-V2-Flash,参数达到3090亿,采用专家混合架构,推理速度为150 tokens/秒,成本低至0.1美元/百万token。该模型在数学推理和编程能力上表现优异,支持深度思考和联网搜索,适用于多种开发环境,标志着小米在AI领域的重要进展。

小米突然发布新模型:媲美 DeepSeek-V3.2,把手机的性价比卷到 AI

爱范儿
爱范儿 · 2025-12-17T04:23:41Z
SAM 3为现代视觉工作流程引入了更强大的分割架构

Meta发布的SAM 3版本显著提升了分割模型的稳定性和准确性,优化了小物体和复杂环境的掩膜一致性,支持更快的推理速度,适用于AR/VR、科学成像和机器人感知等多种应用场景。该模型已开源,便于部署和集成。

SAM 3为现代视觉工作流程引入了更强大的分割架构

InfoQ
InfoQ · 2025-11-26T05:09:00Z

Kimi开源的线性注意力架构首次超越全注意力模型,推理速度提升6倍,KV缓存减少75%。其核心创新Kimi Delta Attention引入细粒度遗忘门控,确保长上下文中的稳定性。该模型在多个基准测试中表现优异,标志着AI架构进入多元创新时代。

Kimi开源新线性注意力架构,首次超越全注意力模型,推理速度暴涨6倍

量子位
量子位 · 2025-10-31T08:49:31Z

上海发布的Minimax M2开源模型以61分成为开源模型第一,突破智力、成本和速度的限制。其编程能力和推理速度优于Claude 3.5,成本仅为8%。M2支持多种工具调用,表现出色,目前限时免费使用。

全球开源大模型杭州霸榜被终结,上海Minimax M2发布即爆单,百万Tokens仅需8元人民币

量子位
量子位 · 2025-10-28T01:52:11Z
vLLM睡眠模式下的零重载模型切换

vLLM的睡眠模式通过提供两种睡眠级别,解决了多模型服务中的GPU内存问题,优化了模型切换速度和内存使用。该模式可在几秒内休眠并快速唤醒,显著提升推理速度和效率,避免了传统模型重载带来的高延迟和资源浪费。

vLLM睡眠模式下的零重载模型切换

vLLM Blog
vLLM Blog · 2025-10-26T00:00:00Z

蚂蚁集团推出高性能扩散语言模型推理框架dInfer,推理速度提升10倍,首次超越自回归模型。dInfer支持多种扩散模型,解决了推理效率的三大挑战,标志着扩散语言模型的实践应用。

推理性能提升10倍!蚂蚁集团开源业内首个高性能扩散语言模型推理框架dInfer

量子位
量子位 · 2025-10-13T09:04:05Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码