小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
Canonical为Ubuntu Linux制定AI计划

Canonical计划在2026年前为Ubuntu Linux添加AI功能,包括改进的语音识别和个人自动化工具,以提升操作系统的功能和用户体验。尽管鼓励工程师使用AI,但Canonical强调Ubuntu不会成为AI产品,也不会将AI作为评估标准。

Canonical为Ubuntu Linux制定AI计划

The Verge
The Verge · 2026-04-27T20:47:45Z
参加全国大学生智能汽车竞赛需要的CSK5062离线语音控制资源上手指引

第21届全国智能汽车竞赛中,参赛者需使用CSK5062芯片控制电子红绿灯的语音识别和LED显示。文章介绍了芯片特性、SDK获取、开发流程及示例,支持离线语音识别和自定义命令词,开发者可通过官方文档获取详细指导。

参加全国大学生智能汽车竞赛需要的CSK5062离线语音控制资源上手指引

分享AI芯片开发经验
分享AI芯片开发经验 · 2026-04-24T10:30:56Z
Adobe 和 Speechmatics 为 Premiere 提供“云级”的设备端语音识别功能

Adobe 扩大与 Speechmatics 的合作,为 Premiere 提供本地语音识别功能,确保高精度转录并保护隐私。新模型在设备端实现接近云端的准确度,处理速度快,适用于各种硬件,满足安全和隐私需求,支持不同环境中的无缝工作。

Adobe 和 Speechmatics 为 Premiere 提供“云级”的设备端语音识别功能

实时互动网
实时互动网 · 2026-04-22T03:35:11Z

HagiCode项目通过语音识别和图片上传功能,提升了用户与AI助手的交互体验,用户可通过语音或截图解决问题,避免打字。尽管遇到WebSocket不支持自定义header的问题,但最终通过后端代理方案解决了安全性和兼容性问题。

打字不如说话,说话不如截图——AI 代码助手的多模态输入实践

dotNET跨平台
dotNET跨平台 · 2026-03-31T23:57:29Z
谷歌发布 Gemini 3.1 Flash Live:面向AI代理的实时多模态语音模型

谷歌发布了Gemini 3.1 Flash Live预览版,旨在实现低延迟的实时语音交互。该模型通过原生音频处理提升了嘈杂环境中的语音识别准确性,并支持双向流式传输,允许用户中断对话。同时,开发者可调整推理深度,以优化速度与准确性。

谷歌发布 Gemini 3.1 Flash Live:面向AI代理的实时多模态语音模型

实时互动网
实时互动网 · 2026-03-27T03:15:06Z
使用Hugging Face部署AI模型

Hugging Face已成为现代AI革命的核心平台。freeCodeCamp.org YouTube频道推出了一门新课程,教授如何在该平台上部署AI模型,内容涵盖Transformer库、语音识别和生成AI等,适合各级别学习者。

使用Hugging Face部署AI模型

freeCodeCamp.org
freeCodeCamp.org · 2026-03-25T20:18:56Z

本文介绍了在HagiCode项目中实现豆包语音识别热词功能的方法,通过自定义热词和平台热词表提高专业术语的识别准确率,开发者可以灵活配置热词以适应不同业务场景,增强语音识别能力。

豆包语音识别热词功能实现指南

dotNET跨平台
dotNET跨平台 · 2026-03-08T00:39:51Z
连你的声音都是一个数据问题

Deepgram利用深度学习提升语音识别和合成能力,解决方言和噪音环境的挑战,并关注语音克隆的伦理问题。该公司致力于构建准确、可扩展且经济实惠的语音AI,推动语音技术的应用。

连你的声音都是一个数据问题

Stack Overflow Blog
Stack Overflow Blog · 2026-02-13T17:00:00Z
aiOla推出QUASAR,一个用于高度个性化语音识别路由的网关

aiOla推出QUASAR智能语音网关,通过动态路由音频请求到最佳ASR引擎,提高自动语音识别准确率,支持多种ASR源,增强识别一致性,适应不同环境和需求,标志着语音AI新时代的到来。

aiOla推出QUASAR,一个用于高度个性化语音识别路由的网关

实时互动网
实时互动网 · 2026-02-10T03:03:27Z

阿里开源的Qwen3-ASR语音识别模型支持52种语言,能快速准确识别饶舌歌曲,处理5小时音频仅需10秒,适合AI硬件部署,开发者可免费下载使用。

千问语音识别模型Qwen3-ASR开源!饶舌RAP歌曲也能轻松识别

量子位
量子位 · 2026-01-30T02:48:17Z
实测阿里千问点外卖:人类调教AI的崩溃实录

AI点外卖体验不佳,语音识别错误频繁,无法准确下单。尽管偶尔有红包,但功能仍显初级,建议用户直接使用外卖APP。

实测阿里千问点外卖:人类调教AI的崩溃实录

dotNET跨平台
dotNET跨平台 · 2026-01-25T00:01:34Z
NVIDIA AI 发布 Nemotron Speech ASR:全新的开源实时转录模型

NVIDIA发布了Nemotron语音识别模型,专为低延迟语音助手和实时字幕设计。该模型采用缓存感知的FastConformer编码器和RNNT解码器,支持16 kHz音频,提供多种输入块配置,词错误率在7.2%至7.8%之间,显著提升了并发性和稳定性,适用于实时语音应用。

NVIDIA AI 发布 Nemotron Speech ASR:全新的开源实时转录模型

实时互动网
实时互动网 · 2026-01-08T02:51:11Z
荒漠化

昨晚跑步回家时,天气雾霭且气温低。最近cursor插件更新后频繁卡顿,尝试轻量插件未果。尽管AI在不断迭代,但解决特定问题的能力仍不足,iOS与安卓的语音识别问题频繁出现。开发助理增多,技术文章却减少,AI对人类内容的依赖加剧,互联网荒漠化现象明显,需珍惜愿意分享的博主。

荒漠化

obaby@mars
obaby@mars · 2026-01-07T03:00:25Z
更流畅对话、更多语言支持!Nova 2 Sonic让构建语音应用更轻松

亚马逊云科技推出的Amazon Nova 2 Sonic语音模型提升了语音交互的流畅性与智能性,支持多语言切换,优化了语音识别和对话机制,增强了多任务处理能力,适用于多种应用场景。

更流畅对话、更多语言支持!Nova 2 Sonic让构建语音应用更轻松

实时互动网
实时互动网 · 2026-01-06T03:41:49Z
14% 的信号:为何你需要为语音 AI 浪潮做好准备

自2022年ChatGPT推出以来,企业在AI部署上有所进展,但缺乏战略规划。语音交互成为主要方式,14%的用户更倾向于使用语音而非键盘。企业应投资音频设备,以提升语音识别能力,推动AI的广泛应用。

14% 的信号:为何你需要为语音 AI 浪潮做好准备

实时互动网
实时互动网 · 2026-01-05T02:28:35Z

博主分享了豆包输入法的使用体验,语音识别准确且实时纠错,操作简便。虽然功能较少,但适合博客和会议记录。期待未来推出语音备忘录APP,以提升效率。

解放双手用嘴写博客?试试豆包输入法,真的香!

碎言博客
碎言博客 · 2025-12-29T12:17:32Z
WhisperJAV – 专用解决方案:Whisper 在日语场景下该怎么用?

Whisper是OpenAI的开源语音识别工具,能够将音频转换为文本。WhisperJAV是其针对日本成人影片的字幕生成器,支持处理嘈杂音频,并提供五种识别模式以适应不同场景。安装需要Python、torch等环境,性能受硬件影响。

WhisperJAV – 专用解决方案:Whisper 在日语场景下该怎么用?

小众软件
小众软件 · 2025-12-29T08:58:18Z
ZEGO 实时互动 AI Agent v2.8.5 发布,支持调整语音活动检测 VAD 灵敏度

即构科技发布实时互动AI Agent v2.8.5版本,新增语音活动检测(VAD)灵敏度调整功能,支持低、中、高三种模式及自定义参数,以优化语音识别和打断灵敏度。

ZEGO 实时互动 AI Agent v2.8.5 发布,支持调整语音活动检测 VAD 灵敏度

实时互动网
实时互动网 · 2025-12-16T07:23:50Z
ChipChat:低延迟级联对话代理在MLX中的应用

ChipChat是一种新型低延迟级联对话代理,结合了流式语音识别、增强型大语言模型和文本转语音合成技术,实现了在Mac Studio上亚秒级响应延迟,同时保护用户隐私。该系统展示了重新设计的级联系统在语音AI代理中的潜力。

ChipChat:低延迟级联对话代理在MLX中的应用

Apple Machine Learning Research
Apple Machine Learning Research · 2025-12-10T00:00:00Z
火山引擎正式发布豆包语音识别模型 2.0

火山引擎发布的豆包语音识别模型2.0提升了上下文理解和多模态视觉识别能力,支持13种语言,优化了专有名词和多音字的识别,增强了语音识别的准确性和适应性。

火山引擎正式发布豆包语音识别模型 2.0

实时互动网
实时互动网 · 2025-12-05T07:30:25Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码