Whisper-GPT:一种混合表示的音频大型语言模型
💡
原文中文,约200字,阅读约需1分钟。
📝
内容提要
本研究提出了Whisper-GPT,一种生成大型语言模型,旨在提升音频上下文处理能力。该模型结合声谱图和离散音频标记,增强了下一个标记的预测效果。
🎯
关键要点
- 本研究提出了Whisper-GPT,一种生成大型语言模型。
- Whisper-GPT旨在提升音频上下文处理能力,解决现有模型的不足。
- 该模型结合了声谱图和离散音频标记,增强了下一个标记的预测效果。
- 研究表明,Whisper-GPT在下一个标记预测中改善了困惑度和负对数似然得分。
➡️