WhisBERT: 亿字规模的多模式文本音频语言建模 原文约200字,阅读约需1分钟。发表于:2023-12-05T00:00:00Z。 多模态训练对语言模型的质量和效率有所改善,但在复杂目标优化和超越纯文本基线方面仍存在挑战。 本文研究了将非语言性特征转化为文本描述,并与口头文本结合,整合到基于文本的预训练大语言模型中。称此方法为TextMI,并在多个下游任务中进行了fine-tune,取得了令人满意的性能。建议将TextMI作为低资源环境下多模态行为分析任务的通用、有竞争力的基准。 TextMI 口头文本 建模 文本描述 非语言性特征 预训练大语言模型