本研究提出了一种上下文噪声表示学习方法(CNRL),用于增强在噪声环境中的对话语音识别准确性。该方法通过解码器预训练和上下文编码器的噪声表示学习,特别适用于用户语音难以听清的情况。
本文研究了一种线性复杂度的自监督学习(SSL)上下文编码器,通过改进 SummaryMixing 模型,在 MP3S 基准测试的下游任务中达到更好或相等的性能,同时减少了预训练时间和峰值 VRAM,使得 155M wav2vec 2.0 模型的预训练在一周内完成。
本论文提出了一种T-CAR框架,通过三元组校准损失、未见空间降低损失和上下文编码器等手段提高模型对未见三元组的组合泛化能力,在零样本场景图生成任务中取得了明显的改进。
完成下面两步后,将自动完成登录并继续当前操作。