HyperAI超神经 ·

每周编辑精选｜微软开源 Orca-Math 高质量数学数据集、清华大学研究团队发布条件去噪扩散模型 SPDiff

💡 原文中文，约4300字，阅读约需11分钟。

📝

内容提要

微软研究院发布了数学推理模型Orca-Math，开源了Orca-Math-200K数学单词问题数据集。hyper.ai官网提供多个优质公共数据集和教程，包括多模态理解排行榜、大规模信息抽取语料库和面部属性数据集。社区文章精选包括清华大学研究团队的条件去噪扩散模型和北京师范大学研究团队的风能利用潜力预测。报道还涉及2024 GTC AI大会和AI相关词条。

🎯

关键要点

微软研究院发布数学推理模型Orca-Math，展示小型专业模型的价值。
开源Orca-Math-200K数学单词问题数据集，包含约20万小学数学题目。
hyper.ai官网更新了10个优质公共数据集和2个公共教程。
Orca-Math-200K数据集的答案由Azure GPT4-Turbo生成。
MULTI-Benchmark是一个多模态理解排行榜，评测复杂表格和图像理解能力。
IEPile是一个大规模双语信息抽取数据集，包含约200万条指令样本。
FFHQ-UV-Intrinsic是用于3D人脸重建的面部属性数据集，包含10,000个主体的面部属性。
GITQA是首个包含视觉图的推理问答数据集，包含超过423K个问答实例。
SMolInstruct是一个大规模化学指令微调数据集，包含超过300万个样本。
MusicPile是一个大型音乐-语言预训练数据集，包含517万个样本。
豆瓣电影短评论数据集包含超过200万条短评论，可用于文本分析。
清华大学研究团队发布条件去噪扩散模型SPDiff，实现人流移动模拟。
北师大研究团队预测中国未来70年的风能利用潜力，评估风能密度变化。
2024 GTC AI大会将于3月18日至21日举行，黄仁勋将分享AI变革主题。
hyper.ai提供丰富的公共资源，包括1200+公开数据集和300+在线教程。

❓

延伸问答

Orca-Math数学推理模型的主要特点是什么？

Orca-Math展示了小型专业模型在特定领域的价值，能够匹配甚至超越更大模型的性能。

Orca-Math-200K数据集包含哪些内容？

Orca-Math-200K数据集包含约20万道小学数学题目，所有答案由Azure GPT4-Turbo生成。

hyper.ai官网提供了哪些公共数据集？

hyper.ai官网更新了10个优质公共数据集，包括MULTI-Benchmark、IEPile和FFHQ-UV-Intrinsic等。

清华大学的SPDiff模型有什么应用？

SPDiff模型能够有效模拟人流移动，通过社会力引导的扩散过程实现人群行为模拟。

2024 GTC AI大会的时间和主题是什么？

2024 GTC AI大会将于3月18日至21日举行，黄仁勋将分享AI变革的主题。

豆瓣电影短评论数据集的用途是什么？

豆瓣电影短评论数据集可用于文本分类、情感分析和语义网络构建等NLP相关领域。

🏷️