小红花·文摘

本研究提出了一种基于强化学习的因果推断方法，通过结合强化学习和排序模式，使用编码器-解码器架构生成排序，并使用强化学习优化模型处理生成的排序，得到最终的因果图。实验结果表明，该方法在合成和真实数据集上表现出更好的性能。

CORE: 基于强化学习的可扩展高效因果发现

BriefGPT - AI 论文速递 ·

本文通过研究基于编码器-解码器架构的神经网络，提供了数学解释。使用Potts模型作为图像分割示例，将分割问题与连续控制问题相关联，并通过离散化方法对连续控制模型进行处理。改进的PottsMGNet在具有大噪声的数据集上表现出优异的性能。

双井网络图像分割

BriefGPT - AI 论文速递 ·

本文提出了一种多流网络架构，使用编码器-解码器架构，独立地捕获每个信号的相关信息，并在架构的瓶颈处融合多个流的特征，解决图像拼接定位问题，取得了具有竞争性的性能和最先进的结果。

视频拼接定位的时空共注意融合网络

BriefGPT - AI 论文速递 ·

本文介绍了一种使用编码器-解码器架构的音频标题系统，并利用转移学习缓解数据稀缺性问题。通过强化学习将评估指标纳入模型优化中，解决了“曝光偏差”和评估指标与损失函数不匹配的问题。该方法在DCASE 2021 Task 6中排名第三，并进行了消融研究。

音频差异学习用于音频字幕

BriefGPT - AI 论文速递 ·

Matcha-TTS是一种新的编码器-解码器架构，用于快速TTS声学建模。它使用最优传输条件流匹配进行训练，生成基于ODE的解码器，能够在较少的合成步骤中输出高质量音频。该方法是概率的、非自回归的，并且能够在没有外部对齐的情况下学习说话。与预训练基线模型相比，Matcha-TTS系统具有最小的内存占用量，并在听力测试中获得最高的主观评分。

本文介绍了一种用于自动语音识别的后处理模型，使用基于Transformer的编码器-解码器架构将ASR模型输出转化为语法和语义正确的文本。作者探讨了不同的规范化和优化策略，并指出需要广泛的数据增强和预训练权重的初始化来实现良好的性能。该方法在LibriSpeech基准测试中，在词错误率上表现优异，尤其是在更嘈杂的评估数据集上。该模型还通过6-gram语言模型重新评分超过了基础模型，并接近于使用Transformer-XL神经语言模型重新评分的性能。

引入噪声稳健性到预训练自动语音识别

BriefGPT - AI 论文速递 ·

本文介绍了一种使用编码器-解码器架构的音频标题系统，并通过转移学习解决数据稀缺性问题。强化学习将评估指标纳入模型优化中，解决了训练策略和评估指标不匹配的问题。该方法在DCASE 2021 Task 6中排名第三，并通过消融研究验证了系统中每个要素的贡献。结果显示，该技术显著提高了评估指标得分，但可能对生成的标题质量产生不利影响。

利用相似性差异解耦的音频差异字幕生成

BriefGPT - AI 论文速递 ·

CORE: 基于强化学习的可扩展高效因果发现

双井网络图像分割

视频拼接定位的时空共注意融合网络

音频差异学习用于音频字幕

Matcha-TTS：具有条件流匹配的快速 TTS 架构

引入噪声稳健性到预训练自动语音识别

利用相似性差异解耦的音频差异字幕生成