小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
苹果发布会视频,说到 Siri 这个词时会对音频做处理,防止唤醒观众们的 Siri

苹果在发布会视频中,为防止意外激活Siri,切掉音频中3k、4k、5k、6kHz频率部分,体现了对细节的关注。

苹果发布会视频,说到 Siri 这个词时会对音频做处理,防止唤醒观众们的 Siri

苹果fans博客
苹果fans博客 · 2026-06-12T16:45:25Z
谷歌将保存您的Lens照片、搜索实时录音和翻译音频用于人工智能训练

谷歌将更新搜索服务的历史设置,保存用户的搜索互动,包括使用Google Lens的图片、实时搜索录音和翻译语音。用户可以选择关闭此功能,谷歌表示这些数据将用于改进服务和个性化推荐。如果用户已阻止保存搜索历史,谷歌将继续保持该设置关闭。

谷歌将保存您的Lens照片、搜索实时录音和翻译音频用于人工智能训练

The Verge
The Verge · 2026-06-10T16:18:45Z
Bitmovin 的 Player Web X 为 Axel Springer 在 WELT 上的全新音频新闻体验提供技术支持

2026年6月9日,Bitmovin宣布Axel Springer SE部署其新一代视频播放器Player Web X,该播放器为WELT品牌的新闻文章提供音频朗读功能,提升用户体验。Player Web X支持快速播放和广告集成,确保网页加载迅速,视频播放流畅,Axel Springer希望通过这一新功能拓展数字产品,增加收入潜力。

Bitmovin 的 Player Web X 为 Axel Springer 在 WELT 上的全新音频新闻体验提供技术支持

实时互动网
实时互动网 · 2026-06-10T02:52:17Z
Google 发布 Gemini 3.5 Live Translate:一款支持 70 多种语言的流式语音翻译音频模型

谷歌推出了Gemini 3.5实时翻译模型,支持70多种语言的语音翻译。该模型采用连续流处理,翻译内容滞后几秒,适用于会议和通话场景。开发者可通过Live API配置功能,支持音频输入和输出,未来将应用于Google Meet和Translate应用中。

Google 发布 Gemini 3.5 Live Translate:一款支持 70 多种语言的流式语音翻译音频模型

实时互动网
实时互动网 · 2026-06-10T02:35:25Z
VR 社交对音视频有什么要求?拆解 VR 社交的空间音频、范围语音、3D 音效

本文探讨了VR社交中的空间音频和范围语音技术,强调声音的方位和距离对沉浸感的重要性。通过Unity和Unreal引擎的集成,开发者可以实现3D音效和范围语音,优化大场景中的音频传输,提升用户体验。ZEGO实时音视频提供相关SDK,简化开发过程,确保低延迟和高沉浸感。

VR 社交对音视频有什么要求?拆解 VR 社交的空间音频、范围语音、3D 音效

实时互动网
实时互动网 · 2026-06-04T06:49:24Z
Google DeepMind 发布 Gemma 4 12B:一款无需编码器的多模态模型,支持原生音频

Google DeepMind 发布了 Gemma 4 12B,这是一个无编码器的多模态模型,支持文本、图像、音频和视频处理。该模型在消费级笔记本电脑上运行,性能接近 26B MoE 模型,但内存占用不到一半。它通过直接输入视觉和音频数据,简化了处理流程,提升了整体质量和指令遵循性。

Google DeepMind 发布 Gemma 4 12B:一款无需编码器的多模态模型,支持原生音频

实时互动网
实时互动网 · 2026-06-04T02:31:21Z
年轻好莱坞的下一个职业发展方向?朗读音频色情作品

音频色情平台Quinn自2019年成立以来,利用年轻人对热门剧集的热情,推出了多部由明星配音的浪漫剧,吸引了众多独立创作者和知名演员参与。随着好莱坞的变化,许多演员寻求额外收入,Quinn为他们提供了新的机会。

年轻好莱坞的下一个职业发展方向?朗读音频色情作品

The Verge
The Verge · 2026-06-01T15:00:12Z
一个生产级语聊房怎么做?从架构、信令、音频处理、礼物互动等维度拆解

语聊房是泛娱乐社交的重要形式,结合实时音频、互动和礼物功能,产品形态包括多人麦位房、派对房和电台房。其技术架构分为媒体层、信令层和业务后台,确保音频质量和互动体验,关键在于上下麦的状态管理和音频处理,提供变声、混响等音效玩法。推荐使用ZEGO的整体方案以提升音质和互动性。

一个生产级语聊房怎么做?从架构、信令、音频处理、礼物互动等维度拆解

实时互动网
实时互动网 · 2026-06-01T03:08:00Z
什么才是「好」的 Android 音频输出?从一台旧日 Xperia 说起

文章探讨了Android设备音频质量的演变,指出尽管Android具备高保真音频输出能力,但许多厂商仍通过MIXER处理音频,导致音质下降。以Sony Xperia XZ Premium为例,分析不同音频输出模式的效果,强调高保真音频的重要性,并质疑厂商在音频处理上的选择是否真正提升了用户体验。

什么才是「好」的 Android 音频输出?从一台旧日 Xperia 说起

少数派
少数派 · 2026-05-29T02:57:32Z

微软发布了Windows 11 5月份的C预览更新(KB5089573),新增共享音频和视频流功能,支持同时连接两副蓝牙耳机。更新还优化了系统UI、USB连接可靠性及启动速度,适用于Windows 11 24H2/25H2版,包含错误修复和性能改进。

微软推出Windows 11 5月C更新带来共享音频和共享摄像头视频流等功能

蓝点网
蓝点网 · 2026-05-27T04:03:19Z

腾讯收购喜马拉雅后,宣布放弃音频独家授权协议,解除现有独家合同。根据市场监管总局要求,腾讯承诺不再与版权方达成独家授权,相关版权方可与其他平台授权,腾讯将积极寻求非独家合作,维护市场公平竞争。

腾讯收购喜马拉雅后放弃音频独家授权协议 现有的独家授权协议也将解除

蓝点网
蓝点网 · 2026-05-25T06:45:02Z
从”对口型”到”数字人” 音频驱动虚拟人合成技术全景解析

自2021年以来,音频驱动虚拟人合成技术迅速发展,结合静态图像与音频生成同步视频,广泛应用于直播和客服等领域。主要技术挑战包括身份保持与音视频同步。近年来,扩散模型成为主流,推动了该领域的进步。关键研究包括Hallo2、Let Them Talk和OmniHuman-1,分别聚焦于长视频生成、多人人物对话及全身数字人模型,展现出显著的技术突破与商业潜力。

从”对口型”到”数字人” 音频驱动虚拟人合成技术全景解析

实时互动网
实时互动网 · 2026-05-25T06:33:54Z
你的 AI 工具好不好,取决于你的音频质量

AI在工作场所的应用前景广阔,但音频质量限制了其效果。混合办公环境中的噪音影响会议记录和AI工具的准确性。企业需重视音频设备标准,以确保清晰的音频输入,从而提升AI工具的有效性和信任度。

你的 AI 工具好不好,取决于你的音频质量

实时互动网
实时互动网 · 2026-05-25T03:59:12Z

微软在Windows 11 24H2/25H2版中调整了现代待机行为,合盖后音频播放将自动暂停,以提升电池续航。用户可以在控制面板中自定义合盖行为,但并非所有笔记本电脑都支持此功能。

微软悄悄对Windows 11现代待机模式进行调整 合盖或睡眠后音频会停止播放

蓝点网
蓝点网 · 2026-05-25T02:00:52Z
旭化成微电子将首次展出高音质音频运算放大器“AK491x”系列

旭化成微电子将在2026年国际音频展会首次展出高音质音频运算放大器“AK491x”系列,包括单通道的“AK4911”和双通道的“AK4912”,具备低噪声密度和优异的音频失真特性,预计2027年初量产。

旭化成微电子将首次展出高音质音频运算放大器“AK491x”系列

全球TMT-美通国际
全球TMT-美通国际 · 2026-05-20T06:11:50Z
苹果新专利:通过随机化音频反馈,让空间计算交互更自然

苹果公司于2026年申请了“声音随机化”专利,旨在改善XR头显等设备的音效体验。该技术通过为每个虚拟控件定义特征音频反馈,并随机调整音效,减少用户的听觉疲劳,强调音频在空间计算中的重要性,未来可能实现更智能的音频适配,提升人机交互效率。

苹果新专利:通过随机化音频反馈,让空间计算交互更自然

实时互动网
实时互动网 · 2026-05-19T06:25:55Z
火山引擎联合中科院声学所在 ICASSP 首届低资源音频编解码器挑战赛中取得佳绩

2025年低资源音频编解码器比赛吸引了多家机构参与,字节跳动团队表现优异,获得赛道1冠亚军和赛道2季军。比赛聚焦低复杂度、高音质的音频编解码技术,推动实时通信和流媒体的发展。团队提出的IRIS和Enhance-Nanocodec方案在严格限制下实现了优质音频重建,未来将继续优化技术,拓展应用场景。

火山引擎联合中科院声学所在 ICASSP 首届低资源音频编解码器挑战赛中取得佳绩

实时互动网
实时互动网 · 2026-05-19T01:58:31Z
音频编解码器市场预计到2033年将达到120亿美元,年复合增长率达6.4%

全球音频编解码器市场正快速增长,预计到2026年将达到78亿美元,2033年约120亿美元,年均增长率为6.4%。主要驱动力包括5G普及和无线音频技术进步。北美市场占主导地位,亚太地区增长最快,音频编解码器广泛应用于流媒体、汽车和可穿戴设备,低功耗和高效压缩技术成为关键。

音频编解码器市场预计到2033年将达到120亿美元,年复合增长率达6.4%

实时互动网
实时互动网 · 2026-05-12T06:24:13Z
世界杯前夕,播客互动推动品牌音频支出增长

世界杯期间,广告商面临高价电视广告与数字音频广告的选择。数字音频广告,尤其是播客,吸引了越来越多的投资。尽管音频广告在全球广告收入中占比下降,但其互动性和精准定位使其成为吸引足球迷的有效渠道。大型赛事的收听量激增,品牌可通过播客广告提升曝光率,音频广告在世界杯期间仍具潜力。

世界杯前夕,播客互动推动品牌音频支出增长

实时互动网
实时互动网 · 2026-05-11T07:34:16Z
在线教程丨支持600+语言,小米开源OmniVoice:仅需3-10秒参考音频实现语音克隆

OmniVoice是一款新发布的多语言文本转语音(TTS)模型,支持超过600种语言,包括多种方言和口音。它采用非自回归架构,简化了语音生成流程,提高了自然度和可懂度。该模型具备零样本语音克隆能力,适用于AI配音和跨语言内容生成,展现出广泛的应用潜力。

在线教程丨支持600+语言,小米开源OmniVoice:仅需3-10秒参考音频实现语音克隆

HyperAI超神经
HyperAI超神经 · 2026-05-09T06:34:15Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码