基于 ASR 的跨领域产品检索多模态表示学习
原文中文,约400字,阅读约需1分钟。发表于: 。E-commerce is increasingly multimedia-enriched, and ASR-enhanced Multimodal Product Representation Learning (AMPere) is proposed to improve cross-domain product retrieval by using an LLM-based ASR...
本文介绍了基于Transformer架构的音频视觉自动语音识别(AV-ASR)系统,利用视觉信息提供场景背景,提高ASR性能。实验结果表明,多分辨率训练可加速收敛速度50%,相对于子词预测模型,单词错误率(WER)性能提高18%。融合视觉信息可改善表现,相对增益高达3.76%。与最先进的Listen, Attend and Spell架构相媲美。