小红花·文摘

Interspeech 2026 第二届音频编码器能力挑战赛正式启动

实时互动网 ·

通过预训练的生成音频编码器和声码器实现高效且适应性强的语音增强

实时互动网 ·

ICME 2025 | 火山引擎在国际音频编码能力挑战赛中夺得冠军

实时互动网 ·

本研究提出了一种轻量级音频编码器SQCodec，采用单一量化器。通过简化卷积网络和局部Transformer模块，SQCodec在保持高音质的同时显著降低了模型复杂度，提升了灵活性，展现出良好的应用潜力。

One Quantizer is Enough: Toward a Lightweight Audio Codec

BriefGPT - AI 论文速递 ·

Video-LLaMA 是一种多模态框架，结合视觉和音频编码器与大型语言模型，提升视频理解能力。其核心设计为模态增强训练，能够有效处理视频数据。研究表明，Audio-Visual LLM 在视频理解任务中表现优异，具有强大的可扩展性和多功能性。新框架 VideoLLM 利用 NLP 预训练模型进行视频序列理解，实验结果显示其在多个任务上表现出色。

VideoLLaMA 2: 在视频 LLMs 中推进时空建模与音频理解

BriefGPT - AI 论文速递 ·

WhisperKit [译]

宝玉的分享 ·

本研究使用麦克风记录的信号来确定用户是否与虚拟助手交流。通过将语音识别系统和音频编码器的信号结合为大型语言模型的输入特征，实现了这一目标。使用低秩适应和前缀调整的组合进行数据训练，结果显示多模式方法的错误率更低（EER）。

多模态数据和资源高效的设备导向语音检测与大型基础模型

BriefGPT - AI 论文速递 ·

该研究提出了一种基于文本的音频检索系统，使用自注意力机制的音频编码器和附加的人工生成和合成数据集。该系统在2023年的DCASE挑战中排名第一，在ClothoV2基准测试中的表现优于当前的最新技术，提高了5.6个百分点的mAP@10。

一石二鸟：音频字幕系统是否也可用于音频文本检索？

BriefGPT - AI 论文速递 ·