小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
OpenMOSS发布MOSS-Audio:一个用于语音、声音、音乐和时间感知音频推理的开源基础模型

MOSS-Audio是一个开源音频理解模型,集成了语音转录、情感分析和环境声音理解等功能。其模块化设计包括音频编码器和大型语言模型,采用DeepStack跨层特征注入和时间感知表示技术,显著提升了音频处理能力。MOSS-Audio-8B-Thinking在音频理解基准测试中表现优异,准确率达到71.08%。

OpenMOSS发布MOSS-Audio:一个用于语音、声音、音乐和时间感知音频推理的开源基础模型

实时互动网
实时互动网 · 2026-04-28T03:00:32Z
NVIDIA 和马里兰大学发布 Audio Flamingo Next (AF-Next):一个功能强大且开放的大型音频语言模型

NVIDIA与马里兰大学推出了Audio Flamingo Next(AF-Next),这是一个开放的大型音频语言模型,旨在提升音频理解能力。AF-Next有三种版本,分别用于问答、多步骤推理和音频字幕生成。该模型通过时间音频思维链技术,能够更准确地处理长达30分钟的录音,并在长音频理解和音乐识别方面表现优异。

NVIDIA 和马里兰大学发布 Audio Flamingo Next (AF-Next):一个功能强大且开放的大型音频语言模型

实时互动网
实时互动网 · 2026-04-15T02:23:35Z
AES 最新技术文件重点关注对话清晰度

AES发布技术文件TD1009,旨在提升媒体对话清晰度,解决观众音频理解问题。研究分析了对话从采集到呈现的全过程,提出改善后期制作、设备限制及发行环节的方案,鼓励行业人士应用以提升听众体验。

AES 最新技术文件重点关注对话清晰度

实时互动网
实时互动网 · 2026-01-08T03:46:04Z

本研究提出了音频为中心的视频理解基准(ACVUBench),旨在评估多模态大型语言模型对音频信息的理解能力。基准包含2,662段视频和超过13,000个问答对,设计了音频中心任务,以展示音频-视觉模型的不足。

ACVUBench: An Audio-Centric Video Understanding Benchmark

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-25T00:00:00Z
最强全模态模型Ola-7B横扫图像、视频、音频主流榜单,腾讯混元Research&清华&NTU联手打造

Ola模型是一种全模态语言模型,具备图像、视频和音频理解的强大能力。其采用渐进式模态对齐策略,逐步提升模型性能。在多个基准测试中,Ola超越了现有的专用模型,推动了全模态理解的研究进展。

最强全模态模型Ola-7B横扫图像、视频、音频主流榜单,腾讯混元Research&清华&NTU联手打造

机器之心
机器之心 · 2025-02-18T04:37:11Z

本文探讨了多种先进语音编码器在低资源环境下的表现,特别是Whisper在语音理解和生成任务中的优越性。研究还介绍了Speech-LLaMA和Qwen-Audio模型,后者通过多任务训练框架提升了音频理解能力,并支持多轮对话。研究提出了新的训练策略和评估基准,以解决语音识别和翻译模型的数据不足问题。

MoWE-Audio:使用弱编码器的多任务音频大语言模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-10T00:00:00Z

本研究探讨了音频问题回答(AQA)任务中的时间推理能力,提出了多种模型以提升性能,包括MALiMo和INDENT。研究表明,利用多模态知识和新数据集可以显著改善音频场景理解和问题定位能力。此外,GAMA模型在音频理解任务中表现优异,解决了文本到音频检索中的时间顺序理解问题。

增强大规模音频语言模型中的时间理解能力的音频问答

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-10T00:00:00Z
摩尔线程正式开源音频理解大模型MooER

摩尔线程开源了音频理解大模型MooER,支持中英文语音识别和中译英语音翻译。MooER-5K在测试中表现优异,特别是在Covost2中译英测试集上,BLEU分数达到25.2。模型结构包括Encoder、Adapter和Decoder三个部分。训练过程中使用了自研的夸娥智算平台和DeepSpeed框架。MooER与其他开源模型相比效果更优。文章提供了一些有关Encoder选择、音频建模粒度和快速适应到目标垂类的建议。

摩尔线程正式开源音频理解大模型MooER

实时互动网
实时互动网 · 2024-08-23T10:09:01Z
什么是多模态大模型

多模态大模型能同时处理多种形式数据输入输出,学习不同模态之间的关联和映射关系,发现隐藏在数据中的复杂跨模态模式。目前在图片理解方面效果较好,但在视频和音频理解方面仍有待改进。多模态大模型整体处于发展阶段,但在垂直场景下已能做出一些之前做不到或做不好的应用。

什么是多模态大模型

bang's blog
bang's blog · 2024-08-20T03:31:00Z

多模态大模型能够处理图像、视频和音频等多种数据输入,通过编码、投影和解码层实现不同模态的特征对齐和理解。目前主流模型如GPT-4o和Gemini在图像和视频理解方面表现良好,但在特定领域仍有差距。视频理解主要通过提取帧进行分析,音频理解也在不断提升,未来有望在垂直场景中实现更高效的应用。

什么是多模态大模型

bang's blog
bang's blog · 2024-08-20T03:31:00Z

本文介绍了Qwen-Audio模型,旨在提升音频理解能力,覆盖30多项任务和多种音频类型。通过多任务训练框架,Qwen-Audio在多个基准任务中表现优异,且无需特定任务微调。此外,基于此模型开发了Qwen-Audio-Chat,实现多轮对话,支持多种音频场景。

Qwen2-Audio 技术报告

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-15T00:00:00Z

本研究提出了多个AI系统和模型,包括CompA、AudioGPT和GAMA,旨在提升音频理解、组合推理和情感识别能力。通过改进训练方法和引入新基准(如AIR-Bench),研究揭示了现有模型的局限性,并推动了多模态AI的发展。

GAMA: 具有先进音频理解和复杂推理能力的大型音频语言模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-17T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码