KInIT 参加 SemEval-2024 任务 8:用于多语言机器生成文本检测的细调 LLMs
原文中文,约300字,阅读约需1分钟。发表于: 。SemEval-2024 任务 8 专注于多产生器、多领域和多语言黑盒机器生成文本检测,并应用语言识别和参数高效微调小型 LLM 进行文本分类,通过每种语言分类阈值校准将微调模型预测与统计检测指标相结合,提高系统检测性能的泛化能力,我们的方案取得了竞争力的结果,在第四名,仅比冠军低 1 个百分点。
我们引入了一个新的基准数据集MULTITuDE,用于多语言机器生成文本检测。该数据集包括11种语言的真实和机器生成的文本,共计74,081个样本。通过比较零样本和微调检测器的性能,评估了这些检测器在未见过的语言和未见过的模型上的泛化性能。