小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
OpenMOSS发布MOSS-Audio:一个用于语音、声音、音乐和时间感知音频推理的开源基础模型

MOSS-Audio是一个开源音频理解模型,集成了语音转录、情感分析和环境声音理解等功能。其模块化设计包括音频编码器和大型语言模型,采用DeepStack跨层特征注入和时间感知表示技术,显著提升了音频处理能力。MOSS-Audio-8B-Thinking在音频理解基准测试中表现优异,准确率达到71.08%。

OpenMOSS发布MOSS-Audio:一个用于语音、声音、音乐和时间感知音频推理的开源基础模型

实时互动网
实时互动网 · 2026-04-28T03:00:32Z
突破零样本 TTS 音色克隆上限:LongCat-AudioDiT 的声音克隆艺术

美团LongCat团队发布了LongCat-AudioDiT模型,采用全新的端到端文本转语音技术,减少信息损失。该模型在Seed基准测试中表现优异,取得最佳的说话人相似度和可懂度,证明了在波形潜空间生成语音的有效性。LongCat-AudioDiT以简化架构和高保真合成为目标,已开源,期待推动语音生成技术的发展。

突破零样本 TTS 音色克隆上限:LongCat-AudioDiT 的声音克隆艺术

美团技术团队
美团技术团队 · 2026-04-20T00:00:00Z
AirPods Max 2 体验:降噪更强声音更饱满,稳定更新的小升级

苹果发布了AirPods Max 2,售价3999元。新款搭载H2芯片,支持自适应音频和增强降噪,音质更佳。外观与前代相似,续航时间为20小时,兼容iOS和macOS设备。

AirPods Max 2 体验:降噪更强声音更饱满,稳定更新的小升级

爱范儿
爱范儿 · 2026-04-02T10:24:43Z
突破零样本TTS音色克隆上限:LongCat-AudioDiT 的声音克隆艺术

音频生成技术正向端到端生成演进。美团LongCat团队推出LongCat-AudioDiT,直接在波形潜空间进行文本转语音,避免信息损失。该模型在Seed基准测试中表现优异,取得了SOTA的说话人相似度和可懂度,展现出强大的零样本语音克隆能力。

突破零样本TTS音色克隆上限:LongCat-AudioDiT 的声音克隆艺术

实时互动网
实时互动网 · 2026-04-02T01:48:34Z
三星新推出的应用声称通过声音缓解晕动症

三星推出了名为Hearapy的免费应用,通过播放100Hz的正弦波音调来缓解晕动症。用户只需听60秒即可减轻恶心等症状,效果可持续两小时。该应用受到名古屋大学研究的启发,建议与Galaxy Buds 4 Pro耳机配合使用以获得最佳效果。

三星新推出的应用声称通过声音缓解晕动症

The Verge
The Verge · 2026-03-31T19:56:26Z
Suno在v5.5中加强了个性化定制

Suno发布了AI音乐模型v5.5的重大更新,新增“声音”、“我的品味”和“自定义模型”功能。用户可以用自己的声音训练模型,上传音乐或直接录音。自定义模型允许用户上传至少六首歌曲以个性化输出,而“我的品味”功能则根据用户的偏好自动生成风格。声音和自定义模型仅对Pro和Premier订阅用户开放。

Suno在v5.5中加强了个性化定制

The Verge
The Verge · 2026-03-28T18:33:10Z
看见声音

马里亚诺·萨尔塞多在墨西哥和德克萨斯州长大,热爱音乐但机会有限。现在,他在麻省理工学院攻读音乐技术硕士,研究神经元细胞自动机,结合音乐与视觉,旨在通过技术提升音乐体验,关注音乐的多样性与公平性。他的研究展示了音乐与科技的结合,激励他追求更广泛的创意表达。

看见声音

MIT News - Artificial intelligence
MIT News - Artificial intelligence · 2026-03-26T20:45:00Z
这款简约的闹钟利用灯光和声音帮助你入睡、专注和醒来

Balmuda推出了一款名为“The Clock”的简约闹钟,采用铝制外壳和灯光显示时间,具备放松、专注和闹钟功能,能播放自然声音帮助入睡。售价约375美元,但电池续航仅24小时。

这款简约的闹钟利用灯光和声音帮助你入睡、专注和醒来

The Verge
The Verge · 2026-03-20T14:32:53Z
暴雪皮克斯老兵的AI社交实验:用声音匹配,MAU破260万,估值1.5亿美金

暴雪和皮克斯的李哲羽创办的社交App“森森”通过声音匹配实现了260万月活跃用户,估值1.5亿美金。该产品强调真实互动,利用AI理解用户声音,避免传统社交的“展示自己”疲劳,提供更自然的社交体验。

暴雪皮克斯老兵的AI社交实验:用声音匹配,MAU破260万,估值1.5亿美金

量子位
量子位 · 2026-03-09T04:26:46Z
在 macOS 的 Chrome 浏览器中录制屏幕并包含系统声音

在macOS上,Chrome浏览器141版本首次支持通过getDisplayMedia录制系统音频,此功能与macOS 14.2更新相关,允许第三方应用捕获系统音频。之前版本均不支持该选项。

在 macOS 的 Chrome 浏览器中录制屏幕并包含系统声音

实时互动网
实时互动网 · 2026-02-26T06:27:32Z
连你的声音都是一个数据问题

Deepgram利用深度学习提升语音识别和合成能力,解决方言和噪音环境的挑战,并关注语音克隆的伦理问题。该公司致力于构建准确、可扩展且经济实惠的语音AI,推动语音技术的应用。

连你的声音都是一个数据问题

Stack Overflow Blog
Stack Overflow Blog · 2026-02-13T17:00:00Z
VSSFlow:通过联合学习统一视频条件下的声音和语音生成

VSSFlow是一种新方法,将视频到声音(V2S)和视觉文本到语音(VisualTTS)任务整合在一个框架中。它通过条件聚合机制处理不同输入信号,利用交叉注意力和自注意力层的不同偏差,提升生成效果。VSSFlow在联合学习中表现优异,超越了现有基准,展示了统一生成模型的潜力。

VSSFlow:通过联合学习统一视频条件下的声音和语音生成

Apple Machine Learning Research
Apple Machine Learning Research · 2026-02-06T00:00:00Z
赋予代理可视化的声音:VS Code中的MCP应用支持

MCP Apps在VS Code中推出,增强了AI编码代理的互动性。用户可以通过可视化组件如仪表板和表单与代理直接互动,从而提升开发效率,简化工作流程。

赋予代理可视化的声音:VS Code中的MCP应用支持

Visual Studio Code - Code Editing. Redefined.
Visual Studio Code - Code Editing. Redefined. · 2026-01-26T00:00:00Z
使用此发射器,大家都可以通过耳机听到你的电视声音

森海塞尔推出新款无线耳机和电视发射器,支持蓝牙Auracast功能,可同时连接多个设备。耳机电池续航50小时,耳垫可更换,售价299.95美元,预购将于2月3日开始。发射器售价129.95美元,支持多种音频源连接。

使用此发射器,大家都可以通过耳机听到你的电视声音

The Verge
The Verge · 2026-01-21T23:00:00Z

苹果电脑无声问题的解决方法可参考相关日志,详细信息请阅读原文。

Mac技巧之终端命令执行完成后显示通知和声音提醒

苹果fans博客
苹果fans博客 · 2026-01-06T14:03:21Z
OpenAI希望在首款硬件设备发布前,让ChatGPT的声音更接近人类语音

OpenAI计划在2026年前推出升级版音频模型,以提升语音对话的自然性和准确性,并重组团队专注于音频AI。同时,将发布智能眼镜和无显示屏音箱等音频设备。

OpenAI希望在首款硬件设备发布前,让ChatGPT的声音更接近人类语音

实时互动网
实时互动网 · 2026-01-05T06:33:58Z
通过虚拟角色赋予用户声音

通过虚拟角色赋予用户声音,利用AI整合用户研究为互动角色,提供多角度反馈,帮助团队即时获取用户见解,提升用户体验。

通过虚拟角色赋予用户声音

Articles on Smashing Magazine — For Web Designers And Developers
Articles on Smashing Magazine — For Web Designers And Developers · 2025-12-23T10:00:00Z
AI应用系列 一个简单的Vibe coding的通知系统

VibeNotification是一个Python工具,能够在Claude Code/Codex任务完成时发送通知并发声。它支持多种声音和交互式配置,适用于不同操作系统,用户可根据需求调整音量和声音类型,以提升使用体验。

AI应用系列 一个简单的Vibe coding的通知系统

浮云翩迁之间
浮云翩迁之间 · 2025-12-21T05:52:29Z
Mirelo 完成 4100 万美元种子轮融资,旨在将 AI 生成的声音技术应用于视频、游戏等领域

总部位于柏林的Mirelo公司完成4100万美元的种子轮融资,旨在提升音频制作效率。创始人认为音频创作滞后于视觉,Mirelo开发了专为视频设计的音频模型,用户可以快速生成与视频同步的音效,未来将重新定义声音在视觉媒体中的角色。

Mirelo 完成 4100 万美元种子轮融资,旨在将 AI 生成的声音技术应用于视频、游戏等领域

实时互动网
实时互动网 · 2025-12-16T03:13:10Z

在 Mac 上安装 Linux Mint 时,用户常遇到无声音问题,主要由于硬件兼容性、驱动缺失或配置错误。文章提供了系统排查流程,包括基础检查、硬件识别、服务状态和固件修复等步骤,以帮助用户定位和解决音频故障。对于 T2 芯片等特殊硬件,需依赖社区工具链。遵循最佳实践可降低问题复发风险。

Linux Mint 在 Mac 上无声音问题深度排查与解决指南

极客技术博客’s Blog
极客技术博客’s Blog · 2025-11-19T10:00:10Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码