cPAPERS: 科学论文中的情境和多模态互动对话数据集

💡 原文中文,约1600字,阅读约需4分钟。
📝

内容提要

本研究提出了多个科学对话数据集,以改善对话代理在科学领域的应用。分析ArgSciChat数据集显示,现有对话代理表现不佳。此外,创建了多模态数据集,支持科学论文的自动摘要和文本生成研究,推动自然语言处理的发展。

🎯

关键要点

  • 本研究提出了一种新的框架,用于在科学论文上收集科学家之间的对话。
  • 通过 ArgSciChat 数据集的分析,发现现有对话代理在科学领域表现不佳。
  • 创建了一个俄语科学论文的多模态数据集,包含文本、表格和图形,用于自动文本摘要任务的测试。
  • 提出了一个基于真实情境的多模交互对话数据集 SIMMC 2.0,收集了 11,000 个用户与助手的对话。
  • Talk to Papers 是一个利用开放领域问答技术改进学术搜索的工具,支持自然语言查询。
  • 介绍了规模庞大的科学论文数据集 SciXGen,包含 205,304 篇完全注释的论文,促进科学文本生成研究。
  • 构建了多模态图表理解数据集 M-Paper,证明了在该数据集上训练的模型具有更强的科学图表理解性能。
  • 提出了一个新的文本资源数据集 CASIMIR,包含来自 OpenReview 的科学文章的多个修订版本及其同行评审。

延伸问答

什么是ArgSciChat数据集,它的主要发现是什么?

ArgSciChat数据集用于分析科学对话,发现现有对话代理在科学领域表现不佳。

SIMMC 2.0数据集的特点是什么?

SIMMC 2.0是一个基于真实情境的多模交互对话数据集,包含11,000个用户与助手的对话。

Talk to Papers工具的用途是什么?

Talk to Papers是一个利用开放领域问答技术改进学术搜索的工具,支持自然语言查询。

SciXGen数据集的规模和内容是什么?

SciXGen数据集包含205,304篇完全注释的科学论文,促进科学文本生成研究。

M-Paper数据集的目的是什么?

M-Paper数据集旨在强化多模态图表理解能力,证明训练模型的科学图表理解性能更强。

CASIMIR数据集包含哪些内容?

CASIMIR数据集包含来自OpenReview的15,646篇科学文章的多个修订版本及其同行评审。

➡️

继续阅读