每周编辑精选|微软开源 Orca-Math 高质量数学数据集、清华大学研究团队发布条件去噪扩散模型 SPDiff...

💡 原文中文,约4300字,阅读约需11分钟。
📝

内容提要

微软研究院发布了数学推理模型Orca-Math,展示了小型专业模型在特定领域的价值。微软开源了用于训练Orca-Math的Orca-Math-200K数学单词问题数据集。hyper.ai官网还提供了其他优质公共数据集和教程。

🎯

关键要点

  • Orca-Math 是微软研究院发布的数学推理模型,展示了小型专业模型在特定领域的价值。
  • 微软开源了用于训练 Orca-Math 的 Orca-Math-200K 数学单词问题数据集。
  • hyper.ai 官网提供了多个优质公共数据集和教程。
  • Orca-Math-200K 数据集包含约 20 万小学数学题目,所有答案由 Azure GPT4-Turbo 生成。
  • MULTI-Benchmark 数据集用于评测多模态大模型在理解复杂表格和图像的能力。
  • IEPile 是一个双语信息抽取指令微调数据集,涵盖多个领域。
  • FFHQ-UV-Intrinsic 数据集用于 3D 人脸重建,包含高分辨率的面部属性。
  • GITQA 数据集是首个包含视觉图的推理问答数据集,包含超过 423K 个问答实例。
  • SMolInstruct 数据集包含 14 个化学任务的指令微调数据。
  • MusicPile 是一个大型音乐-语言预训练数据集,包含517万个样本。
  • 豆瓣电影短评论数据集包含超过 200 万条短评论,可用于多种文本分析任务。
  • 公共教程包括使用迁移学习进行花卉分类和量化 Vision Transformers 的最佳实践。
  • 清华大学研究团队发布条件去噪扩散模型 SPDiff,实现长程人流移动模拟。
  • 北师大研究团队评估中国未来 70 年的风能利用潜力,结果显示整体风能密度将轻微下降。
  • 2024 年 GTC AI 大会将于 3 月 18 日至 21 日举行,黄仁勋将分享新举措。
  • hyper.ai 提供丰富的公共资源,包括数据集、教程和词条查询。

延伸问答

Orca-Math模型的主要特点是什么?

Orca-Math是微软研究院发布的数学推理模型,展示了小型专业模型在特定领域的价值,能够匹配甚至超越更大模型的性能。

Orca-Math-200K数据集包含哪些内容?

Orca-Math-200K数据集包含约20万道小学数学题目,所有答案由Azure GPT4-Turbo生成。

hyper.ai官网提供哪些类型的公共资源?

hyper.ai官网提供优质公共数据集、教程和词条查询等资源。

MULTI-Benchmark数据集的用途是什么?

MULTI-Benchmark数据集用于评测多模态大模型在理解复杂表格和图像的能力。

清华大学的SPDiff模型有什么创新之处?

SPDiff模型通过社会力引导的扩散过程,能够有效模拟人群行为,展示了条件去噪扩散模型的新颖性。

MusicPile数据集的主要特点是什么?

MusicPile是一个大型音乐-语言预训练数据集,包含517万个样本,覆盖广泛的音乐常识和知识问答。

➡️

继续阅读