最新AI数据集汇总：推动语音生成、医学影像与多语言研究的前沿技术 - 小红花·文摘 - 小红花技术领袖俱乐部

谷歌发布 TabFM-1.0.0-PyTorch：专为混合表格数据打造的零样本预测模型；跨越亚美欧！NVIDIA 开源多国合成人物数据集，千万级角色数据上线

谷歌发布 TabFM-1.0.0-PyTorch：专为混合表格数据打造的零样本预测模型；跨越亚美欧！NVIDIA 开源多国合成人物数据集，千万级角色数据上线

HyperAI超神经 ·

数据集汇总丨英伟达开源Nemotron系列数据集，超10T tokens+40M 条后训练样本，覆盖数学推理/代码生成/多语言对话

数据集汇总丨英伟达开源Nemotron系列数据集，超10T tokens+40M 条后训练样本，覆盖数学推理/代码生成/多语言对话

HyperAI超神经 ·

数据集汇总丨AI Agent 评测数据集，Microsoft/北大/港大/上海交大等发布 10 个数据集，从长程记忆到真实环境任务执行全覆盖

数据集汇总丨AI Agent 评测数据集，Microsoft/北大/港大/上海交大等发布 10 个数据集，从长程记忆到真实环境任务执行全覆盖

HyperAI超神经 ·

emoji 也能控制语音生成？Irodori-TTS 基于 RF-DiT 架构的日语 TTS；Eczema and Tinea Skin Disease 数据集：支持医学图像分类与迁移学习

emoji 也能控制语音生成？Irodori-TTS 基于 RF-DiT 架构的日语 TTS；Eczema and Tinea Skin Disease 数据集：支持医学图像分类与迁移学习

HyperAI超神经 ·

Meta提出AI数据科学家，Autodata构建高质量训练/评测数据集

Meta提出AI数据科学家，Autodata构建高质量训练/评测数据集

HyperAI超神经 ·

核心转储流行病学：修复一个存在18年的漏洞

核心转储流行病学：修复一个存在18年的漏洞

OpenAI ·

4步出图/4K画质/6倍提速，PiD用像素扩散统一解码与超分辨率输出；SA-3DAO：包含 1000 组真实图像与艺术家手工 3D 网格配对的数据集

4步出图/4K画质/6倍提速，PiD用像素扩散统一解码与超分辨率输出；SA-3DAO：包含 1000 组真实图像与艺术家手工 3D 网格配对的数据集

HyperAI超神经 ·

如何在亚马逊云科技上构建企业级智能体

如何在亚马逊云科技上构建企业级智能体

亚马逊AWS官方博客 ·

医疗影像中的隐性PHI问题：构建用于AI去标识化的合成数据集

医疗影像中的隐性PHI问题：构建用于AI去标识化的合成数据集

freeCodeCamp.org ·

支持真人/动漫/动物驱动，美团开源多风格音频驱动视频生成框架LongCat 1.5；百万级图表理解数据集ChartNet提升VLM图表重建与表格提取能力

支持真人/动漫/动物驱动，美团开源多风格音频驱动视频生成框架LongCat 1.5；百万级图表理解数据集ChartNet提升VLM图表重建与表格提取能力

HyperAI超神经 ·

通过新的开放数据集加速研究人员和开发者构建多语言AI

The GitHub Blog ·

SmoothConv & DuplexConv：面向对话式 AI的大规模中文全双工语音数据集开源！

SmoothConv & DuplexConv：面向对话式 AI的大规模中文全双工语音数据集开源！

实时互动网 ·

麻省理工/IBM提出迄今为止最大的合成图表数据集ChartNet，生成150万个多样化图表样本

麻省理工/IBM提出迄今为止最大的合成图表数据集ChartNet，生成150万个多样化图表样本

HyperAI超神经 ·

MiniCPM5-1B采用RL+OPD训练，多项复杂任务达SOTA；面向复杂医疗业务自动化：医疗智能体评测数据集 CHI-Bench

MiniCPM5-1B采用RL+OPD训练，多项复杂任务达SOTA；面向复杂医疗业务自动化：医疗智能体评测数据集 CHI-Bench

HyperAI超神经 ·

麻省理工学院研究人员教AI模型解读图表

麻省理工学院研究人员教AI模型解读图表

MIT News - Computer Science and Artificial Intelligence Laboratory (CSAIL) ·

字节开源 Lance，3B 模型包揽理解/生成/编辑；新加坡国立大学提出 ViMU 数据集：涵盖 588 个视频与无提示问答

字节开源 Lance，3B 模型包揽理解/生成/编辑；新加坡国立大学提出 ViMU 数据集：涵盖 588 个视频与无提示问答

HyperAI超神经 ·

GR00T N1.7的简介与微调——其中的VLM是“基于Qwen3-VL”的Cosmos-Reason2，且预训练数据中包含2 万小时的 EgoScale人类视频数据(含GR00T N1.6的简介)

GR00T N1.7的简介与微调——其中的VLM是“基于Qwen3-VL”的Cosmos-Reason2，且预训练数据中包含2 万小时的 EgoScale人类视频数据(含GR00T N1.6的简介)

结构之法算法之道 ·

本文介绍了如何使用Mimesis库生成平衡的反事实数据集，以审计机器学习模型的偏见。通过创建具有相同收入但不同性别的贷款申请者，揭示模型在性别上的歧视。实验结果表明，男性申请者更容易获得贷款批准，而女性则常被拒绝。这一方法有助于识别和纠正模型中的偏见。

使用Mimesis生成平衡数据集审计模型偏见

KDnuggets ·

全新生图模型 Anima V1 发布：专注动漫风格的图像生成；MemLens 多模态长程记忆评估数据集：涵盖跨会话图文推理与知识更新机制

全新生图模型 Anima V1 发布：专注动漫风格的图像生成；MemLens 多模态长程记忆评估数据集：涵盖跨会话图文推理与知识更新机制

HyperAI超神经 ·

5亿视频炼出全球最大 GUI 开源数据集、推理 Token 省71%小模型反超大模型——小米 AI 团队多篇论文入选 ICML 2026

5亿视频炼出全球最大 GUI 开源数据集、推理 Token 省71%小模型反超大模型——小米 AI 团队多篇论文入选 ICML 2026

小米云技术 ·