小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
NVIDIA推出Nemotron 3 Nano Omni模型,整合视觉、音频和语言,实现高达9倍的AI代理效率

NVIDIA推出Nemotron 3 Nano Omni模型,将视觉、音频和语言整合为一个系统,显著提升AI代理的效率和准确性。该模型具备高达9倍的处理能力,适用于客户支持、文档智能和音视频理解等领域,并支持开放定制,适合多种部署环境。

NVIDIA推出Nemotron 3 Nano Omni模型,整合视觉、音频和语言,实现高达9倍的AI代理效率

NVIDIA Blog
NVIDIA Blog · 2026-04-28T16:00:28Z

本文介绍了如何使用Faster-Whisper在本地快速转录音频。首先需将音频转换为16 kHz单声道WAV格式,然后使用Python脚本进行转录。Faster-Whisper比原版Whisper速度更快,适合在CPU和GPU上运行,保护隐私且无需云服务。设置环境时需安装FFmpeg和pydub库,并提供了完整的转录示例代码。

本地Whisper音频转录

KDnuggets
KDnuggets · 2026-04-28T14:00:53Z
OpenMOSS发布MOSS-Audio:一个用于语音、声音、音乐和时间感知音频推理的开源基础模型

MOSS-Audio是一个开源音频理解模型,集成了语音转录、情感分析和环境声音理解等功能。其模块化设计包括音频编码器和大型语言模型,采用DeepStack跨层特征注入和时间感知表示技术,显著提升了音频处理能力。MOSS-Audio-8B-Thinking在音频理解基准测试中表现优异,准确率达到71.08%。

OpenMOSS发布MOSS-Audio:一个用于语音、声音、音乐和时间感知音频推理的开源基础模型

实时互动网
实时互动网 · 2026-04-28T03:00:32Z
StereoFoley:基于视频的对象感知立体音频生成

本文介绍了StereoFoley框架,该框架能够从视频生成语义对齐、时间同步和空间准确的立体音频。该模型克服了现有数据集的限制,通过合成数据生成管道实现对象感知的立体声音。研究还引入了立体对象感知度量,并通过人类听觉研究验证了其有效性,建立了视频到音频生成的新基准。

StereoFoley:基于视频的对象感知立体音频生成

Apple Machine Learning Research
Apple Machine Learning Research · 2026-04-28T00:00:00Z
Beats推出一款3米USB-C转USB-C连接线

Beats推出了一款3米USB-C转USB-C连接线,售价229元,支持高达240瓦的快速充电,兼容所有USB-C设备,适用于充电、同步和音频聆听。

Beats推出一款3米USB-C转USB-C连接线

全球TMT-美通国际
全球TMT-美通国际 · 2026-04-22T10:44:03Z
零抽样 TTS 新突破!几秒参考音频,OmniVoice 助你轻松克隆数百种语言;17 种语言一网打尽:MDPBench 解决低资源文字系统解析难的「心头大患」

小米人工智能实验室推出了OmniVoice,这是一款支持600多种语言的零样本文本转语音(TTS)模型。该模型采用单阶段框架,直接将文本映射为声学标记,基于58.1万小时的开源数据训练,广泛覆盖语言,并提升了对低资源语言的支持。

零抽样 TTS 新突破!几秒参考音频,OmniVoice 助你轻松克隆数百种语言;17 种语言一网打尽:MDPBench 解决低资源文字系统解析难的「心头大患」

HyperAI超神经
HyperAI超神经 · 2026-04-17T08:28:37Z
NVIDIA 和马里兰大学发布 Audio Flamingo Next (AF-Next):一个功能强大且开放的大型音频语言模型

NVIDIA与马里兰大学推出了Audio Flamingo Next(AF-Next),这是一个开放的大型音频语言模型,旨在提升音频理解能力。AF-Next有三种版本,分别用于问答、多步骤推理和音频字幕生成。该模型通过时间音频思维链技术,能够更准确地处理长达30分钟的录音,并在长音频理解和音乐识别方面表现优异。

NVIDIA 和马里兰大学发布 Audio Flamingo Next (AF-Next):一个功能强大且开放的大型音频语言模型

实时互动网
实时互动网 · 2026-04-15T02:23:35Z
Anuvu 为海上邮轮提供 Stingray 的音频和视频内容

互联流媒体公司Stingray与Anuvu合作,将音视频服务引入全球邮轮,Anuvu成为Stingray在邮轮行业的官方分销伙伴,新增15个频道,提升乘客体验。

Anuvu 为海上邮轮提供 Stingray 的音频和视频内容

实时互动网
实时互动网 · 2026-04-09T02:40:13Z
声学邻居嵌入的理论框架

本文提出了声学邻居嵌入的理论框架,解释了可变宽度音频或文本的音素内容在固定维度嵌入空间中的表示。通过定量定义词语音素相似性,提出了嵌入距离的概率解释。研究表明,该框架可用于音频和文本嵌入的最近邻搜索,分类准确率与有限状态转换器相同,并在词汇恢复和方言聚类中表现优异。所有源代码和预训练模型均已提供。

声学邻居嵌入的理论框架

Apple Machine Learning Research
Apple Machine Learning Research · 2026-04-09T00:00:00Z
蓝牙LE音频手册:从“为什么我的通话听起来像铁罐?”到AOSP实现

自2000年代初,蓝牙成为无线音频主流技术。2022年推出的LE Audio基于低功耗蓝牙,重构音频架构,解决音质、功耗和多设备流媒体问题。新编码器LC3提供更佳音质,支持多流音频和Auracast广播功能,提升耳机和助听器的使用体验。

蓝牙LE音频手册:从“为什么我的通话听起来像铁罐?”到AOSP实现

freeCodeCamp.org
freeCodeCamp.org · 2026-04-08T16:20:46Z
仅需 3 秒音频实现「配音自由」,Mistral 开源语音大模型 Voxtral-4B-TTS-2603;多项全能!Capybara 一站式搞定图、视频生成与指令编辑

Mistral发布了Voxtral-4B-TTS-2603模型,旨在提升多语言语音生成的自然度和效率。该模型结合了语义自回归和声学流匹配,支持低延迟本地运行,展现出良好的泛化能力。

仅需 3 秒音频实现「配音自由」,Mistral 开源语音大模型 Voxtral-4B-TTS-2603;多项全能!Capybara 一站式搞定图、视频生成与指令编辑

HyperAI超神经
HyperAI超神经 · 2026-04-08T06:29:50Z
OBS Studio 32.1.1 正式发布,优化了音频混音器和音频去重功能

OBS Studio 32.1.1 发布,修复了音频混合器和工具提示等问题,改进了音频去重功能,新增 WebRTC 支持,并更新了编辑变换对话框和插件管理器。可在 GitHub 下载,支持 Ubuntu、Windows 和 macOS。

OBS Studio 32.1.1 正式发布,优化了音频混音器和音频去重功能

实时互动网
实时互动网 · 2026-04-03T06:23:45Z

苹果计划在美国投资4亿美元扩大制造;森海塞尔消费音频业务将出售;美团全年净亏损233.6亿元;Anthropic考虑进行IPO;SK海力士计划在美股上市。

苹果宣布大幅扩大其美国制造计划;森海塞尔消费级音频业务将再度易主;美团全年净亏损233.6亿元

全球TMT-美通国际
全球TMT-美通国际 · 2026-03-27T04:20:05Z

谷歌推出了Gemini 3.1 Flash Live,这是其最高质量的音频模型,旨在提供更自然、可靠的实时对话。该模型支持开发者通过Gemini Live API使用,企业可用于客户体验,用户可通过Search Live和Gemini Live体验。3.1 Flash Live在理解语调和处理复杂任务方面表现出色,能够在嘈杂环境中提供更自然的对话,所有生成的音频都带有水印,以防止虚假信息传播。

Gemini 3.1 Flash Live:让音频人工智能更加自然和可靠

Google DeepMind Blog
Google DeepMind Blog · 2026-03-26T15:23:35Z

谷歌推出Gemini 3.1 Flash Live,增强语音对话能力,支持开发者和企业构建复杂任务的语音代理。该模型在自然对话和多语言支持方面表现出色,能够更好地理解用户情绪,提供快速自然的响应。

Gemini 3.1 Flash Live:让音频人工智能更加自然和可靠

The Keyword
The Keyword · 2026-03-26T15:21:00Z
RAVATAR借助Gemini原生音频技术,为AI化身带来更自然的实时语音交互体验

RAVATAR于2026年3月24日宣布,其Genesis AI Avatar Studio集成了Gemini Native Audio,提升了语音交互的自然性和响应速度,满足客户对情感化和即时互动的需求。这一技术基于Google Cloud,扩展了RAVATAR在多个领域的应用,助力企业数字化转型。

RAVATAR借助Gemini原生音频技术,为AI化身带来更自然的实时语音交互体验

实时互动网
实时互动网 · 2026-03-25T06:42:18Z
多款Sonos音频产品首次迎来2026年折扣

Sonos推出多款音频产品折扣,包括Ace无线耳机(299美元)、Roam 2扬声器(139美元)和Move 2扬声器(399美元)。Roam 2新增蓝牙连接按钮,Move 2具备更长电池续航和立体声效果。此外,Sonos Beam音响降至369美元,Sub Mini低音炮为399美元。

多款Sonos音频产品首次迎来2026年折扣

The Verge
The Verge · 2026-03-17T15:22:13Z
FFmpeg 8.1 发布,新增实验性 xHE-AAC MPS212 音频加速功能,以及更多 Vulkan 加速选项

FFmpeg 8.1将于2026年3月16日发布,新增xHE-AAC解码、JPEG-XS支持和Vulkan编解码器,提升多媒体处理能力并修复错误。

FFmpeg 8.1 发布,新增实验性 xHE-AAC MPS212 音频加速功能,以及更多 Vulkan 加速选项

实时互动网
实时互动网 · 2026-03-17T01:55:14Z
让龙虾看懂屏幕!谷歌多模态新成果,文本图像视频音频进同一空间

谷歌推出Gemini Embedding 2,这是首个原生多模态嵌入模型,能够将文本、图像、视频、音频和文档映射到同一语义空间,提升AI Agent对现实世界的理解,为多模态应用奠定基础。

让龙虾看懂屏幕!谷歌多模态新成果,文本图像视频音频进同一空间

量子位
量子位 · 2026-03-11T09:30:54Z
从多模态大语言模型中引导音频嵌入

谷歌发布了Gemini Embedding 2,这是首个原生多模态嵌入模型,能够将文本、图像、视频和音频映射到3072维向量空间。音频嵌入以固定长度的向量表示,捕捉声音的语义内容,实现跨模态检索。研究显示,模块组合方法在小模型中表现优异,音频嵌入在智能系统、实时监控和多模态工作流中有广泛应用。

从多模态大语言模型中引导音频嵌入

Jina AI
Jina AI · 2026-03-11T07:33:27Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码