小红花·文摘

电视的沙沙声

Another Dayu ·

文章讨论了香薰蜡烛和香薰灯的优缺点，指出蜡烛需长时间点燃，容易浪费，而香薰灯则能快速释放香气，更加方便。作者还分享了拒接陌生电话和通过听书助眠的个人经验，强调生活的简化与效率。

基于嗅觉与听觉调控的四种生活舒适度提升方法研究与实践

Phuker's Blog ·

AI 可穿戴听觉设备：从聆听设备到智能伴侣

实时互动网 ·

IndexTTS2：用极致表现力颠覆听觉体验

实时互动网 ·

Kardome 与 LG 电子合作利用空间听觉 AI 实现语音 UI 集成

实时互动网 ·

通过战略性听觉刺激提升认知表现

DEV Community ·

本研究解决了语言模型在处理需要听觉常识知识的任务时的不足。提出的“想象听觉”方法通过生成模型动态地生成听觉知识，避免了依赖外部音频数据库的问题。实验结果表明，该方法在AuditoryBench上达到了最先进的性能，展示了基于生成的有效性。

想象听觉：听觉知识生成可以有效辅助语言模型

BriefGPT - AI 论文速递 ·

本研究探讨了味觉与听觉的关系，提出了一种新型多模态生成模型，能够将味觉信息转化为音乐。实验结果表明，经过微调的生成音乐模型（MusicGEN）更能准确反映味觉描述，展示了人工智能在声音与味觉交互中的潜力。

Multimodal Symphony: Integrating Taste and Sound through Generative Artificial Intelligence

BriefGPT - AI 论文速递 ·

本研究解决了传统人工神经网络在与人脑区域对齐方面的困难，提出了一种名为脑样听觉网络（BAN）的新模型，该模型结合了四个神经解剖映射区域及递归连接，并引入了一种新的评估标准——脑样听觉分数（BAS）。研究结果表明，BAN在音乐流派分类任务上表现出色，同时其BAS得分高，首次展现了与人脑听觉识别通路的相似性。

BAN：在人工神经网络与人脑皮层之间进行听觉识别的神经解剖对齐

BriefGPT - AI 论文速递 ·

本研究针对耳蜗植入设备在真实环境中语音分离效果不佳的问题，提出通过使用空间线索来提升分离质量的方案。核心发现表明，无论是隐式还是显式的空间线索，均能显著改善相近或空间分隔的说话者之间的语音分离效果，尤其在声谱线索模糊时表现尤为明显。这项工作对日常听觉场景中助听设备的改进具有重要影响。

利用耳蜗植入物麦克风的空间线索有效增强实际听觉场景中的语音分离

BriefGPT - AI 论文速递 ·

本研究提出了新的深度学习工具包autrainer，旨在克服计算听觉任务训练框架的局限性。该工具包基于PyTorch，支持低代码训练，提升训练效率。

autrainer：一个模块化和可扩展的深度学习工具包用于计算听觉任务

BriefGPT - AI 论文速递 ·

本研究针对视频到音频生成任务中的可控性不足问题，提出了一种新的多模态生成框架VATT。该框架通过引入文本提示，使得音频生成过程更具精确性，并能够根据视频生成音频描述，展现了在性能和用户偏好方面的显著改善，拓展了视频与音频交互的应用潜力。

从视觉内容看听觉信息——视频到音频的生成与文本结合

BriefGPT - AI 论文速递 ·

本文介绍了一种新型基于transformer的框架，用于从EEG信号中提取注意状态，优化特征提取方法。该框架在多个数据集上表现优异，适用于注意力缺陷多动障碍(ADHD)评估和驾驶警觉度检测。研究提出的新模型SDANet和TAnet显著提高了EEG信号分类的准确性，具有广泛的应用潜力。

DARNet：具有时空构建的双重注意力细化网络用于听觉注意力检测

BriefGPT - AI 论文速递 ·

本研究提出了Quality-Net模型，能够在没有干净参考语音的情况下评估语音质量，实验结果表明其与PESQ高度相关。此外，探讨了大型语言模型在自动语音识别和语音合成中的应用，并提出了改进评估机制以提升自然语言处理模型的性能。

启用听觉大型语言模型进行自动语音质量评估

BriefGPT - AI 论文速递 ·

本文介绍了多种语音增强和识别技术，包括Accordion Annealing（ACCAN）和InterAug等新训练方法，旨在提高语音识别系统在嘈杂环境中的鲁棒性。这些方法显著降低了词错误率，改善了语音质量，推动了语音识别技术的发展。

计算机听觉的音频增强——基于样本重要性的迭代训练范式

BriefGPT - AI 论文速递 ·

南卡Runner Pro 5是一款专为运动设计的骨传导耳机，具备防水防尘性能和舒适的佩戴感。耳机采用蓝牙5.4技术和第四代響科技，音质清晰细腻。耳机还具备防漏音技术和32G存储空间，可脱离手机使用。南卡的APP功能简洁实用。唯一的缺点是价格稍贵。

打造全新运动听觉体验，安全、舒适、高效的跑步耳机之选—南卡Runner Pro 5

熊猫不是猫QAQ ·

本文探讨了Transformer模型在多说话者语音识别中的应用，实验结果显示其相对错误率显著降低。同时，提出了音频-视觉声音分离方案和基于多通道的ASR系统，均取得良好效果。研究还涉及语音分离模型的可转移性及其在低资源环境下的应用，展示了新架构在实时任务中的优势。

Papez: 基于听觉工作记忆的资源高效语音分离

BriefGPT - AI 论文速递 ·

通过物理启发嵌入网络和深度学习技术，我们提出了一种创新的多任务学习模型 PEMT-Net，用于增强多任务听觉信号解码性能，从而超越现有方法并为理解大脑处理复杂听觉信息的机制提供新的见解。

通过物理知识引导的多任务转换器的嵌入网络理解听觉诱发的脑信号

BriefGPT - AI 论文速递 ·

基于人类听觉系统的层次化处理，从低级声学特征到高级语义理解的转变，我们引入了一种新的粗到细的音频重建方法。利用非侵入式功能性磁共振成像（fMRI）数据，我们的方法模拟了听觉处理的逆向路径。通过初始使用 CLAP 将 fMRI 数据粗略解码到低维语义空间，然后通过语义特征引导进行精细解码到高维 AudioMAE...

逆转听觉处理路径：基于 fMRI 的由粗到细的音频重建

BriefGPT - AI 论文速递 ·

MindGPT是一种基于fMRI信号的非侵入性神经解码器，结合视觉引导神经编码器和大型语言模型GPT进行语义解码。研究表明，高级视觉皮层在语言解码中比低级视觉皮层更具信息量。该模型的代码将公开发布，展示无创脑机接口在解码自然语言方面的潜力。

使用 fMRI 提示的 LLM 进行开放式词汇听觉神经解码

BriefGPT - AI 论文速递 ·