NewsQs: 多源信息提问

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

介绍了NewsQs数据集,包含新闻文档的问题-回答对。使用控制代码对T5-Large模型进行微调,生成更好的问题。使用QNLI模型过滤数据。数据集可用于查询摘要研究。

🎯

关键要点

  • 介绍了名为NewsQs的数据集,包含新闻文档的问题-回答对。
  • 通过在News On the Web语料库的FAQ样式新闻文章上对T5-Large模型进行微调,创造了NewsQs。
  • 使用控制代码对模型进行微调可以生成更容易被人们接受的问题。
  • 与没有使用控制代码的相同模型相比,微调后的模型在人类评价中表现更好。
  • 使用与人类注释具有高相关性的QNLI模型来过滤数据。
  • 最终的高质量问题、答案和文档聚类数据集可用于未来的基于查询的多文档摘要研究。
➡️

继续阅读