小红花·文摘

本文提出了一种基于双重强化学习框架的一步映射模型，通过设计两种奖励来反映风格准确性和内容保留。该模型在两个基准数据集上表现优于现有技术，特别是 BLEU 分数平均提高了 8 分以上。