小红花·文摘 - 小红花技术领袖俱乐部

神州泰岳ava 2.0数字员工矩阵亮相上海WAIC

神州泰岳ava 2.0数字员工矩阵亮相上海WAIC

全球TMT-美通国际 ·

NVIDIA 发布 Audex (Nemotron-Labs-Audex-30B-A3B)：一种统一的音频-文本大语言模型

NVIDIA 发布 Audex (Nemotron-Labs-Audex-30B-A3B)：一种统一的音频-文本大语言模型

实时互动网 ·

语音是物理 AI 的关键，开发方法需要跟上

语音是物理 AI 的关键，开发方法需要跟上

实时互动网 ·

Voicebox免费开源AI语音克隆 | 本地替代 ElevenLabs

Voicebox免费开源AI语音克隆 | 本地替代 ElevenLabs

极道 ·

模型上新：阿里推出 Fun-ASR-Flash，从“听清楚”走向“听明白”

模型上新：阿里推出 Fun-ASR-Flash，从“听清楚”走向“听明白”

实时互动网 ·

什么是会话式 AI？聊天机器人的核心技术拆解

什么是会话式 AI？聊天机器人的核心技术拆解

实时互动网 ·

什么是AI语音开发？从技术链路到落地场景的完整拆解

什么是AI语音开发？从技术链路到落地场景的完整拆解

实时互动网 ·

什么是AI实时语音技术？如何理解AI实时语音技术

什么是AI实时语音技术？如何理解AI实时语音技术

实时互动网 ·

如何理解AI陪聊软件原理？哪些场景适合AI陪聊软件

如何理解AI陪聊软件原理？哪些场景适合AI陪聊软件

实时互动网 ·

什么是 AI 对话开发？AI 对话开发有什么用途？(2026 完整指南)

什么是 AI 对话开发？AI 对话开发有什么用途？(2026 完整指南)

实时互动网 ·

苹果的无障碍功能增加了更多基于人工智能的处理

苹果的无障碍功能增加了更多基于人工智能的处理

The Verge ·

云知声 U2-ASR 2.5上线：覆盖七大方言体系，支持100种以上方言及地方口音识别转写

云知声 U2-ASR 2.5上线：覆盖七大方言体系，支持100种以上方言及地方口音识别转写

实时互动网 ·

目标说话人识别大模型，让车外语音“聚精会神”听懂你

目标说话人识别大模型，让车外语音“聚精会神”听懂你

小米云技术 ·

Canonical为Ubuntu Linux制定AI计划

Canonical为Ubuntu Linux制定AI计划

The Verge ·

参加全国大学生智能汽车竞赛需要的CSK5062离线语音控制资源上手指引

参加全国大学生智能汽车竞赛需要的CSK5062离线语音控制资源上手指引

分享AI芯片开发经验 ·

MiMo-V2.5-TTS-Series + ASR 正式发布

MiMo-V2.5-TTS-Series + ASR 正式发布

小米云技术 ·

Adobe 和 Speechmatics 为 Premiere 提供“云级”的设备端语音识别功能

Adobe 和 Speechmatics 为 Premiere 提供“云级”的设备端语音识别功能

实时互动网 ·

HagiCode项目通过语音识别和图片上传功能，提升了用户与AI助手的交互体验，用户可通过语音或截图解决问题，避免打字。尽管遇到WebSocket不支持自定义header的问题，但最终通过后端代理方案解决了安全性和兼容性问题。

打字不如说话，说话不如截图——AI 代码助手的多模态输入实践

dotNET跨平台 ·

谷歌发布 Gemini 3.1 Flash Live：面向AI代理的实时多模态语音模型

谷歌发布 Gemini 3.1 Flash Live：面向AI代理的实时多模态语音模型

实时互动网 ·

使用Hugging Face部署AI模型

使用Hugging Face部署AI模型

freeCodeCamp.org ·