东北大学在多语言反对言论生成中的应用:通过直接偏好优化提高反对言论生成的效果

📝

内容提要

本文针对现有自动反对言论生成方法质量不足的问题,提出了一种新颖的方法,通过对大型语言模型(LLMs)进行监督微调(SFT)和直接偏好优化(DPO)来提升生成效果。实验结果表明,DPO对齐的模型在反对言论基准测试中的表现显著优于SFT基线,并且能够有效扩展到多种语言,为反对言论生成的多语言环境提供了潜在的改进方向。

🏷️

标签

➡️

继续阅读