本文介绍了一种名为LEDNet的轻量级网络,采用了不对称的编码器-解码器架构和ResNet作为骨干网络,以及通道分割和随机洗牌等新操作。实验证明,该模型在速度和准确性方面表现出色,并在CityScapes数据集上取得了最先进的结果。
SCALAR-NeRF是一个新的大规模神经场景重建框架,采用编码器-解码器架构,生成编码特征和几何值。通过全局和局部模型提升重叠区域,优于现有的NeRF方法。
本研究提出了一种基于强化学习的因果推断方法,通过结合强化学习和排序模式,使用编码器-解码器架构生成排序,并使用强化学习优化模型处理生成的排序,得到最终的因果图。实验结果表明,该方法在合成和真实数据集上表现出更好的性能。
本文通过研究基于编码器-解码器架构的神经网络,提供了数学解释。使用Potts模型作为图像分割示例,将分割问题与连续控制问题相关联,并通过离散化方法对连续控制模型进行处理。改进的PottsMGNet在具有大噪声的数据集上表现出优异的性能。
本文提出了一种多流网络架构,使用编码器-解码器架构,独立地捕获每个信号的相关信息,并在架构的瓶颈处融合多个流的特征,解决图像拼接定位问题,取得了具有竞争性的性能和最先进的结果。
本文介绍了一种使用编码器-解码器架构的音频标题系统,并利用转移学习缓解数据稀缺性问题。通过强化学习将评估指标纳入模型优化中,解决了“曝光偏差”和评估指标与损失函数不匹配的问题。该方法在DCASE 2021 Task 6中排名第三,并进行了消融研究。
Matcha-TTS是一种新的编码器-解码器架构,用于快速TTS声学建模。它使用最优传输条件流匹配进行训练,生成基于ODE的解码器,能够在较少的合成步骤中输出高质量音频。该方法是概率的、非自回归的,并且能够在没有外部对齐的情况下学习说话。与预训练基线模型相比,Matcha-TTS系统具有最小的内存占用量,并在听力测试中获得最高的主观评分。
本文介绍了一种用于自动语音识别的后处理模型,使用基于Transformer的编码器-解码器架构将ASR模型输出转化为语法和语义正确的文本。作者探讨了不同的规范化和优化策略,并指出需要广泛的数据增强和预训练权重的初始化来实现良好的性能。该方法在LibriSpeech基准测试中,在词错误率上表现优异,尤其是在更嘈杂的评估数据集上。该模型还通过6-gram语言模型重新评分超过了基础模型,并接近于使用Transformer-XL神经语言模型重新评分的性能。
本文介绍了一种使用编码器-解码器架构的音频标题系统,并通过转移学习解决数据稀缺性问题。强化学习将评估指标纳入模型优化中,解决了训练策略和评估指标不匹配的问题。该方法在DCASE 2021 Task 6中排名第三,并通过消融研究验证了系统中每个要素的贡献。结果显示,该技术显著提高了评估指标得分,但可能对生成的标题质量产生不利影响。
完成下面两步后,将自动完成登录并继续当前操作。