每周编辑精选|微软开源 Orca-Math 高质量数学数据集、清华大学研究团队发布条件去噪扩散模型 SPDiff...

💡 原文中文,约4300字,阅读约需11分钟。
📝

内容提要

微软研究院发布了数学推理模型Orca-Math,展示了小型专业模型在特定领域的价值。微软开源了用于训练Orca-Math的Orca-Math-200K数学单词问题数据集。hyper.ai官网还提供了其他优质公共数据集和教程。

🎯

关键要点

  • Orca-Math 是微软研究院发布的数学推理模型,展示了小型专业模型在特定领域的价值。
  • 微软开源了用于训练 Orca-Math 的 Orca-Math-200K 数学单词问题数据集。
  • hyper.ai 官网提供了多个优质公共数据集和教程。
  • Orca-Math-200K 数据集包含约 20 万小学数学题目,所有答案由 Azure GPT4-Turbo 生成。
  • MULTI-Benchmark 数据集用于评测多模态大模型在理解复杂表格和图像的能力。
  • IEPile 是一个双语信息抽取指令微调数据集,涵盖多个领域。
  • FFHQ-UV-Intrinsic 数据集用于 3D 人脸重建,包含高分辨率的面部属性。
  • GITQA 数据集是首个包含视觉图的推理问答数据集,包含超过 423K 个问答实例。
  • SMolInstruct 数据集包含 14 个化学任务的指令微调数据。
  • MusicPile 是一个大型音乐-语言预训练数据集,包含517万个样本。
  • 豆瓣电影短评论数据集包含超过 200 万条短评论,可用于多种文本分析任务。
  • 公共教程包括使用迁移学习进行花卉分类和量化 Vision Transformers 的最佳实践。
  • 清华大学研究团队发布条件去噪扩散模型 SPDiff,实现长程人流移动模拟。
  • 北师大研究团队评估中国未来 70 年的风能利用潜力,结果显示整体风能密度将轻微下降。
  • 2024 年 GTC AI 大会将于 3 月 18 日至 21 日举行,黄仁勋将分享新举措。
  • hyper.ai 提供丰富的公共资源,包括数据集、教程和词条查询。
➡️

继续阅读