Whisper-GPT:一种混合表示的音频大型语言模型
💡
原文中文,约700字,阅读约需2分钟。
📝
内容提要
Whisper-GPT是一种新型生成大型语言模型,专注于处理语音和音乐。它结合了连续音频表示和离散音频标记,提升了音频上下文处理能力,研究表明其在下一个标记预测中优于传统模型。
🎯
关键要点
- Whisper-GPT是一种生成大型语言模型,专注于处理语音和音乐。
- 该模型结合了连续音频表示(如声谱图)和离散音频标记,提升了音频上下文处理能力。
- Whisper-GPT在下一个标记预测中优于传统模型,改善了困惑度和负对数似然得分。
➡️