小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
以数据为中心的教训:改进语音语言预训练

本文探讨了通过数据中心方法改进语音语言模型(SpeechLMs)预训练的策略,重点关注处理原始音频、构建合成数据集和文本与音频交错训练。研究表明,经过有效数据整理的3.8B参数模型SpeLangy在性能上超越了更大模型10.2%。这些发现为未来的语音语言模型数据探索提供了指导。

以数据为中心的教训:改进语音语言预训练

Apple Machine Learning Research
Apple Machine Learning Research · 2025-12-16T00:00:00Z

本研究提出了LLaMA-Omni 2系列语音语言模型,结合了语音编码器和解码器。尽管仅使用20万多轮对话样本进行训练,该模型在多个基准测试中超越了GLM-4-Voice模型。

LLaMA-Omni2: Real-time Voice Chatbot and Autoregressive Streaming Speech Synthesis Based on Large Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-05T00:00:00Z

本文提出了VoxEval,一个新的基于语音的问答基准,旨在评估端到端语音语言模型的知识理解能力。研究表明,现有模型在多样化音频条件下存在显著性能限制,为未来改进提供了方向。

VoxEval: Evaluating the Knowledge Understanding Capabilities of End-to-End Spoken Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-09T00:00:00Z

本研究提出了热启动训练方法,将上下文学习与语音语言模型相结合,实现了在未知任务上进行ICL。研究证实了语音语言模型进行ICL的可行性。

语音语言模型中上下文学习的探索

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-19T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码