本文提出了一种基于双重强化学习框架的一步映射模型,通过设计两种奖励来反映风格准确性和内容保留。该模型在两个基准数据集上表现优于现有技术,特别是 BLEU 分数平均提高了 8 分以上。
完成下面两步后,将自动完成登录并继续当前操作。