每周编辑精选|微软开源 Orca-Math 高质量数学数据集、清华大学研究团队发布条件去噪扩散模型 SPDiff...
💡
原文中文,约4300字,阅读约需11分钟。
📝
内容提要
微软研究院发布了数学推理模型Orca-Math,展示了小型专业模型在特定领域的价值。微软开源了用于训练Orca-Math的Orca-Math-200K数学单词问题数据集。hyper.ai官网还提供了其他优质公共数据集和教程。
🎯
关键要点
- Orca-Math 是微软研究院发布的数学推理模型,展示了小型专业模型在特定领域的价值。
- 微软开源了用于训练 Orca-Math 的 Orca-Math-200K 数学单词问题数据集。
- hyper.ai 官网提供了多个优质公共数据集和教程。
- Orca-Math-200K 数据集包含约 20 万小学数学题目,所有答案由 Azure GPT4-Turbo 生成。
- MULTI-Benchmark 数据集用于评测多模态大模型在理解复杂表格和图像的能力。
- IEPile 是一个双语信息抽取指令微调数据集,涵盖多个领域。
- FFHQ-UV-Intrinsic 数据集用于 3D 人脸重建,包含高分辨率的面部属性。
- GITQA 数据集是首个包含视觉图的推理问答数据集,包含超过 423K 个问答实例。
- SMolInstruct 数据集包含 14 个化学任务的指令微调数据。
- MusicPile 是一个大型音乐-语言预训练数据集,包含517万个样本。
- 豆瓣电影短评论数据集包含超过 200 万条短评论,可用于多种文本分析任务。
- 公共教程包括使用迁移学习进行花卉分类和量化 Vision Transformers 的最佳实践。
- 清华大学研究团队发布条件去噪扩散模型 SPDiff,实现长程人流移动模拟。
- 北师大研究团队评估中国未来 70 年的风能利用潜力,结果显示整体风能密度将轻微下降。
- 2024 年 GTC AI 大会将于 3 月 18 日至 21 日举行,黄仁勋将分享新举措。
- hyper.ai 提供丰富的公共资源,包括数据集、教程和词条查询。
➡️