SmurfCat 在 PAN 2024 TextDetox 中的多语言 Transformer 文本净化对齐

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

SmurfCat团队通过数据增强和特殊过滤程序解决了PAN-2024比赛的多语种文本排毒任务。他们微调了多语种序列到序列模型,取得了乌克兰语和其他语言接近最新成果。在比赛中,他们获得了0.52的自动评估第一名和0.74的最终人工评估第二名。

🎯

关键要点

  • SmurfCat团队在PAN-2024比赛中解决了多语种文本排毒任务。

  • 团队通过数据增强和特殊过滤程序收集额外的多语种平行数据集。

  • 使用收集的数据对多语种序列到序列模型进行微调。

  • 应用ORPO对齐技术到最终模型,模型参数为37亿。

  • 在乌克兰语和其他语言中取得了接近最新成果。

  • 团队在比赛中获得了0.52的自动评估第一名和0.74的最终人工评估第二名。

➡️

继续阅读