本研究提出了共享编码器来改善自动驾驶中方向盘角度估计的准确性。通过训练在多个计算机视觉任务上,编码器融合了多样化的视觉信息,显著提高了方向盘角度估计的性能,并在复杂驾驶场景下展现出潜力。
本文介绍了一种新颖的双语端到端模型,通过共享编码器和预测网络,并通过自注意机制组合语言特定的联合网络,实现了单一神经模型对多种语言的识别和支持语言之间的动态切换。该方法在印地语、英语和混合代码测试集上分别降低了13.3%、8.23%和1.3%的词误差率。
本文提出了统一的时空扩散模型(USTD),利用共享的时空编码器和基于注意力的去噪网络,捕捉条件时空模式并生成预测。USTD 在预测和 Kriging 的下游任务中表现出最先进的性能,并提供了不确定性估计。
本文提出了一种无监督神经文本简化的框架,使用未标记文本语料库进行训练,可以在词汇和句法两个级别上进行文本简化,竞争现有的监督方法。同时,增加标记的对也可以进一步提高性能。
本文研究了基于端到端模型训练语音模型的近期方法进展,发现针对语音文本对齐的时长模型是最重要的,同时共享编码器能够学习到更紧凑重叠的语音文本表示,这也是 Maestro 共享语音文本表示性能优异的部分原因。
本文研究了基于端到端模型训练语音模型的方法进展,通过分析共享语音文本表示的两种方法,扩展了对其理解。研究发现时长模型对语音文本对齐非常重要,有助于学习共享语音文本表示。同时,比较了单一编码器和共享编码器的激活相似性,发现共享编码器能够学习到更紧凑重叠的语音文本表示,这也是Maestro共享语音文本表示性能优异的原因之一。
完成下面两步后,将自动完成登录并继续当前操作。