NewsQs: 多源信息提问
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
介绍了NewsQs数据集,包含新闻文档的问题-回答对。使用控制代码对T5-Large模型进行微调,生成更好的问题。使用QNLI模型过滤数据。数据集可用于查询摘要研究。
🎯
关键要点
- 介绍了名为NewsQs的数据集,包含新闻文档的问题-回答对。
- 通过在News On the Web语料库的FAQ样式新闻文章上对T5-Large模型进行微调,创造了NewsQs。
- 使用控制代码对模型进行微调可以生成更容易被人们接受的问题。
- 与没有使用控制代码的相同模型相比,微调后的模型在人类评价中表现更好。
- 使用与人类注释具有高相关性的QNLI模型来过滤数据。
- 最终的高质量问题、答案和文档聚类数据集可用于未来的基于查询的多文档摘要研究。
🏷️
标签
➡️