从新闻到摘要:构建一个用于抽取和概括式摘要的匈牙利语语料库
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
匈牙利语资源有限,研究人员开发了HunSum-2,一个用于训练摘要模型的开源匈牙利语语料库。数据集经过清洗、预处理和去重,包括抽象和提取式摘要。研究人员使用该数据集训练了基线模型,并进行了评估。数据集、模型和代码都是公开可用的。
🎯
关键要点
- 匈牙利语资源有限,公开可用的模型和数据集稀缺。
- HunSum-2是一个开源的匈牙利语语料库,用于训练抽象和提取式摘要模型。
- 数据集经过详细的清洗、预处理和去重。
- 除了抽象摘要,还使用句子相似度生成句子级标签,用于提取式摘要。
- 研究人员训练了提取式和抽象式摘要的基线模型,并进行了定量和定性评估。
- 数据集、模型和代码都是公开可用的,鼓励复制和进一步研究。
➡️