小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
Conclave是纽约夏季街区派对的声音

Conclave的自名专辑融合了拉丁节奏、合成低音和派对氛围,成为夏季热门音乐。曲目如“Habla”和“Perdón”展现了纽约街头文化,带来愉悦的舞动感。制作人Cesar Toribio巧妙融合多种音乐风格,创造出充满活力的音乐体验。该专辑可在主要流媒体平台上收听。

Conclave是纽约夏季街区派对的声音

The Verge
The Verge · 2026-06-14T16:30:00Z
给 AI 语音聊天机器人定制人设和声线,用 prompt 还是微调还是声音克隆效果更好

本文探讨了AI语音聊天机器人的人设与声线设计,强调了三种主要方法:prompt工程、模型微调和声音克隆。prompt工程适合探索阶段,成本低、迭代快;模型微调提高人设辨识度和一致性;声音克隆确保声线独特性。最佳实践是结合三者,根据项目阶段逐步引入,以提升用户体验和产品差异化。

给 AI 语音聊天机器人定制人设和声线,用 prompt 还是微调还是声音克隆效果更好

实时互动网
实时互动网 · 2026-06-12T07:53:14Z

谷歌与Livity合作发布的《未来报告》调查了6000多名英国青少年的数字生活。报告显示,74%的青少年每周多次使用AI进行学习或创作,76%定期考虑信息的可信度,强调了为青少年提供安全的在线体验和负责任的AI教育的重要性。

阅读《未来报告》,我们的研究提升了英国青少年的声音。

The Keyword
The Keyword · 2026-06-10T10:00:00Z
在线教程丨16GB笔记本跑出接近26B MoE性能,Gemma 4 12B基于创新架构统一处理文本/图像/声音三种模态

Google DeepMind 发布了新款多模态模型 Gemma 4 12B,参数为120亿,但在多项测试中表现接近260亿参数的模型。其无编码器架构显著降低了推理延迟和内存占用,支持音频输入,并可在普通笔记本上运行,降低了部署成本,为开发者提供了接近顶级性能的选择。

在线教程丨16GB笔记本跑出接近26B MoE性能,Gemma 4 12B基于创新架构统一处理文本/图像/声音三种模态

HyperAI超神经
HyperAI超神经 · 2026-06-10T03:09:51Z
AI语音机器人被播客、MP3文件和YouTube视频中的“隐藏”声音劫持

研究人员展示了一种新型攻击,称为“音频劫持”,通过微小音频变化操纵语音助手,执行未经授权的操作,成功率高达96%。该攻击不需直接访问设备,可能在Zoom等会议中实施。微软对此研究表示欢迎,但强调需采取额外保护措施。

AI语音机器人被播客、MP3文件和YouTube视频中的“隐藏”声音劫持

实时互动网
实时互动网 · 2026-05-25T02:44:56Z
假如听不见声音,该如何「感触」音乐?

王朝晖首次用iPhone让失聪的母亲王书珍体验音乐,通过震动感受《远山》,王书珍兴奋地表示喜欢。导演沈煜傑记录了这一感人瞬间,展现了母子间深厚的情感。

假如听不见声音,该如何「感触」音乐?

爱范儿
爱范儿 · 2026-05-21T10:11:40Z

玩过《暗黑地牢》系列的玩家,应该都对游戏中“先祖”的沙哑而阴沉的配音印象深刻。从游戏最初序章动画中娓娓道来的台词,再到游戏过程中粗粝而低沉的旁白,这个声音伴随了《暗黑地牢》玩家几乎全部的游戏时长,也成为了这个系列标志性阴郁残酷气质的一部分。视频来自B站UP主@艾露Smile___尽管并非专业的游戏配音演员,但为“先祖”献声的Wayne...

核心配音演员去世后,《暗黑地牢》开发商拒绝使用AI继续生成他的声音

游戏研究社
游戏研究社 · 2026-05-13T16:00:00Z

KeyClicker是一款苹果电脑软件,模拟机械键盘的打字声音,提供多种音效选择。用户可以为特定按键设置音效或静音,特别适合旧款MacBook Pro用户,以帮助判断输入是否成功。

Mac技巧之让苹果电脑在打字时发出机械键盘和打字机的声音:KeyClicker

苹果fans博客
苹果fans博客 · 2026-05-10T15:39:23Z

文章讨论了iOS系统中键盘输入延迟的问题,特别是在使用蓝牙耳机时。通过关闭“锁定声”和“键盘反馈”设置,以及调整“按键重复”设置,可以减少延迟并改善输入体验。作者希望苹果能重视这些细节,并鼓励读者分享解决方案。

一日一技|为什么你应该关闭 iOS 的键盘声音

少数派
少数派 · 2026-05-07T08:38:27Z
OpenMOSS发布MOSS-Audio:一个用于语音、声音、音乐和时间感知音频推理的开源基础模型

MOSS-Audio是一个开源音频理解模型,集成了语音转录、情感分析和环境声音理解等功能。其模块化设计包括音频编码器和大型语言模型,采用DeepStack跨层特征注入和时间感知表示技术,显著提升了音频处理能力。MOSS-Audio-8B-Thinking在音频理解基准测试中表现优异,准确率达到71.08%。

OpenMOSS发布MOSS-Audio:一个用于语音、声音、音乐和时间感知音频推理的开源基础模型

实时互动网
实时互动网 · 2026-04-28T03:00:32Z
突破零样本 TTS 音色克隆上限:LongCat-AudioDiT 的声音克隆艺术

美团LongCat团队发布了LongCat-AudioDiT模型,采用全新的端到端文本转语音技术,减少信息损失。该模型在Seed基准测试中表现优异,取得最佳的说话人相似度和可懂度,证明了在波形潜空间生成语音的有效性。LongCat-AudioDiT以简化架构和高保真合成为目标,已开源,期待推动语音生成技术的发展。

突破零样本 TTS 音色克隆上限:LongCat-AudioDiT 的声音克隆艺术

美团技术团队
美团技术团队 · 2026-04-20T00:00:00Z
AirPods Max 2 体验:降噪更强声音更饱满,稳定更新的小升级

苹果发布了AirPods Max 2,售价3999元。新款搭载H2芯片,支持自适应音频和增强降噪,音质更佳。外观与前代相似,续航时间为20小时,兼容iOS和macOS设备。

AirPods Max 2 体验:降噪更强声音更饱满,稳定更新的小升级

爱范儿
爱范儿 · 2026-04-02T10:24:43Z
突破零样本TTS音色克隆上限:LongCat-AudioDiT 的声音克隆艺术

音频生成技术正向端到端生成演进。美团LongCat团队推出LongCat-AudioDiT,直接在波形潜空间进行文本转语音,避免信息损失。该模型在Seed基准测试中表现优异,取得了SOTA的说话人相似度和可懂度,展现出强大的零样本语音克隆能力。

突破零样本TTS音色克隆上限:LongCat-AudioDiT 的声音克隆艺术

实时互动网
实时互动网 · 2026-04-02T01:48:34Z
三星新推出的应用声称通过声音缓解晕动症

三星推出了名为Hearapy的免费应用,通过播放100Hz的正弦波音调来缓解晕动症。用户只需听60秒即可减轻恶心等症状,效果可持续两小时。该应用受到名古屋大学研究的启发,建议与Galaxy Buds 4 Pro耳机配合使用以获得最佳效果。

三星新推出的应用声称通过声音缓解晕动症

The Verge
The Verge · 2026-03-31T19:56:26Z
Suno在v5.5中加强了个性化定制

Suno发布了AI音乐模型v5.5的重大更新,新增“声音”、“我的品味”和“自定义模型”功能。用户可以用自己的声音训练模型,上传音乐或直接录音。自定义模型允许用户上传至少六首歌曲以个性化输出,而“我的品味”功能则根据用户的偏好自动生成风格。声音和自定义模型仅对Pro和Premier订阅用户开放。

Suno在v5.5中加强了个性化定制

The Verge
The Verge · 2026-03-28T18:33:10Z
看见声音

马里亚诺·萨尔塞多在墨西哥和德克萨斯州长大,热爱音乐但机会有限。现在,他在麻省理工学院攻读音乐技术硕士,研究神经元细胞自动机,结合音乐与视觉,旨在通过技术提升音乐体验,关注音乐的多样性与公平性。他的研究展示了音乐与科技的结合,激励他追求更广泛的创意表达。

看见声音

MIT News - Artificial intelligence
MIT News - Artificial intelligence · 2026-03-26T20:45:00Z
这款简约的闹钟利用灯光和声音帮助你入睡、专注和醒来

Balmuda推出了一款名为“The Clock”的简约闹钟,采用铝制外壳和灯光显示时间,具备放松、专注和闹钟功能,能播放自然声音帮助入睡。售价约375美元,但电池续航仅24小时。

这款简约的闹钟利用灯光和声音帮助你入睡、专注和醒来

The Verge
The Verge · 2026-03-20T14:32:53Z
暴雪皮克斯老兵的AI社交实验:用声音匹配,MAU破260万,估值1.5亿美金

暴雪和皮克斯的李哲羽创办的社交App“森森”通过声音匹配实现了260万月活跃用户,估值1.5亿美金。该产品强调真实互动,利用AI理解用户声音,避免传统社交的“展示自己”疲劳,提供更自然的社交体验。

暴雪皮克斯老兵的AI社交实验:用声音匹配,MAU破260万,估值1.5亿美金

量子位
量子位 · 2026-03-09T04:26:46Z
在 macOS 的 Chrome 浏览器中录制屏幕并包含系统声音

在macOS上,Chrome浏览器141版本首次支持通过getDisplayMedia录制系统音频,此功能与macOS 14.2更新相关,允许第三方应用捕获系统音频。之前版本均不支持该选项。

在 macOS 的 Chrome 浏览器中录制屏幕并包含系统声音

实时互动网
实时互动网 · 2026-02-26T06:27:32Z
连你的声音都是一个数据问题

Deepgram利用深度学习提升语音识别和合成能力,解决方言和噪音环境的挑战,并关注语音克隆的伦理问题。该公司致力于构建准确、可扩展且经济实惠的语音AI,推动语音技术的应用。

连你的声音都是一个数据问题

Stack Overflow Blog
Stack Overflow Blog · 2026-02-13T17:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码