WhisBERT: 亿字规模的多模式文本音频语言建模

原文约200字,阅读约需1分钟。发表于:

多模态训练对语言模型的质量和效率有所改善,但在复杂目标优化和超越纯文本基线方面仍存在挑战。

本文研究了将非语言性特征转化为文本描述,并与口头文本结合,整合到基于文本的预训练大语言模型中。称此方法为TextMI,并在多个下游任务中进行了fine-tune,取得了令人满意的性能。建议将TextMI作为低资源环境下多模态行为分析任务的通用、有竞争力的基准。

相关推荐 去reddit讨论