TeClass:一个基于人工标注的基于相关性的头条分类和生成的泰卢固语数据集
原文中文,约300字,阅读约需1分钟。发表于: 。提供了第一份人工标注的泰卢固语新闻标题分类数据集(TeClass),包括 78,534 个注释和 26,178 个文章 - 标题对。通过使用 TeClass 数据集微调各种标题生成模型,对高度相关的文章 - 标题对微调的模型生成的头条显示增加了大约 5 个 ROUGE-L 分数点。为了激励未来的研究,标注数据集和标注指南将公开提供。
介绍了第一个人工标注的泰卢固语新闻标题分类数据集(TeClass),包括78,534个注释和26,178个文章-标题对。通过使用该数据集微调标题生成模型,可以提高生成的头条显示质量。标注数据集和标注指南将公开提供,以激励未来的研究。