小红花·文摘 - 小红花技术领袖俱乐部

Modular：为何LLM推理需要一种新型路由器 - 第二部分

Modular：为何LLM推理需要一种新型路由器 - 第二部分

Modular Blog ·

“DeepSeek版Claude Code”，Github 2.3k星

量子位 ·

xAI 发布 grok-voice-think-fast-1.0：τ-voice 基准测试成绩高达 67.3%，超越 Gemini、GPT Realtime 等

xAI 发布 grok-voice-think-fast-1.0：τ-voice 基准测试成绩高达 67.3%，超越 Gemini、GPT Realtime 等

实时互动网 ·

Inception Mercury 2已在AI Gateway上线

Inception Mercury 2已在AI Gateway上线

Vercel News ·

视频生成推理加速实践：基于全局时间索引的序列并行 3D 位置编码优化

视频生成推理加速实践：基于全局时间索引的序列并行 3D 位置编码优化

实时互动网 ·

还有比ollama更傻瓜式的大模型本地部署方式吗？

还有比ollama更傻瓜式的大模型本地部署方式吗？

dotNET跨平台 ·

LangSmith代理构建器现已进入公开测试版

LangSmith代理构建器现已进入公开测试版

LangChain Blog ·

在线教程丨端侧TTS新SOTA！NeuTTS-Air基于0.5B模型实现3秒音频克隆

在线教程丨端侧TTS新SOTA！NeuTTS-Air基于0.5B模型实现3秒音频克隆

HyperAI超神经 ·

Qdrant Edge：嵌入式AI的向量搜索

Qdrant Edge：嵌入式AI的向量搜索

Qdrant - Vector Database ·

MeloTTS是MIT与MyShell.ai联合开源的高质量语音合成工具，支持10种语言，具备CPU实时推理，完全免费，性能优于商业TTS，安装简单，适用于内容创作和教育培训，降低了语音合成的技术门槛。

6.2K Star！MIT出品的多语言语音合成神器，CPU实时推理吊打商业软件！

dotNET跨平台 ·

AMD 和 Mimik 融合硬件和代理 AI，为下一代分布式智能提供动力

AMD 和 Mimik 融合硬件和代理 AI，为下一代分布式智能提供动力

实时互动网 ·

Mistral AI推出了新推理模型Magistral，支持多语言推理。该模型采用纯强化学习训练，提升了准确率，实现高效实时推理，但未与Qwen和DeepSeek R1进行对比，引发质疑。

新“SOTA”推理模型避战Qwen和R1？欧版OpenAI被喷麻了

量子位 ·

如何在边缘环境中利用AI检测个人防护装备合规性

如何在边缘环境中利用AI检测个人防护装备合规性

The New Stack ·

AWS SageMaker

AWS SageMaker

DEV Community ·

本研究提出了一种轻量级神经元细胞自动机（NCA）架构，显著提高了无线胶囊内镜在图像处理和病变定位中的效率。NCA在存储需求上减少了100倍，实时推理速度提高了三倍，为胶囊内镜的精确诊断提供了支持。

eNCApsulate: NCA for Precision Diagnosis in Capsule Endoscopy

BriefGPT - AI 论文速递 ·

在TensorFlow.js中使用YOLOv7目标检测模型

在TensorFlow.js中使用YOLOv7目标检测模型

DEV Community ·

商汤发布第六代大模型SenseNova V6，拥有6000亿参数的多模态能力，能够实时推理和分析视频内容。该模型在文本和视频任务上超越GPT-4.5，具备强大的推理、交互和长记忆能力，适用于数学辅导和视频剪辑等多种场景。商汤强调AI技术应服务于日常生活，解决实际问题。

刚刚，商汤发布第六代大模型：6000亿参数多模态MoE，中长视频直接可推理

量子位 ·

本研究提出了一种新方法LightRDL，旨在提升图神经网络（GNNs）在关系数据库中的特征工程和预测效率。实验结果表明，该方法在实时推理中表现优异。

Enhancing the Efficiency of Relational Deep Learning Using Pre-trained Table Models

BriefGPT - AI 论文速递 ·

AWS SageMaker服务简要指南

AWS SageMaker服务简要指南

DEV Community ·

无人机操控水平与人类驾驶员相当，「超级图灵 AI」通过模仿人脑进行实时推理和学习

无人机操控水平与人类驾驶员相当，「超级图灵 AI」通过模仿人脑进行实时推理和学习

机器之心 ·