小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
MiniCPM5-1B采用RL+OPD训练,多项复杂任务达SOTA;面向复杂医疗业务自动化:医疗智能体评测数据集 CHI-Bench

TACK 是 AI Laboratory for Molecular Engineering 于 2026 年发布的一个标准化知识库数据集与基准测试集,旨在解决现有 PROTAC 机器学习基准中数据稀缺、缺乏严格评估及覆盖范围有限的问题,广泛应用于 PROTAC...

MiniCPM5-1B采用RL+OPD训练,多项复杂任务达SOTA;面向复杂医疗业务自动化:医疗智能体评测数据集 CHI-Bench

HyperAI超神经
HyperAI超神经 · 2026-06-05T05:55:57Z
麻省理工学院研究人员教AI模型解读图表

MIT和IBM研究人员开发了ChartNet数据集,包含超过一百万种多样化图表,旨在提升视觉语言模型对图表的理解能力。该数据集通过合成数据生成,帮助小型企业利用AI进行商业趋势分析和科学数据解读。研究表明,使用ChartNet训练的开源模型在图表提取和总结任务上优于大型商业模型。

麻省理工学院研究人员教AI模型解读图表

MIT News - Computer Science and Artificial Intelligence Laboratory (CSAIL)
MIT News - Computer Science and Artificial Intelligence Laboratory (CSAIL) · 2026-06-03T04:00:00Z
字节开源 Lance,3B 模型包揽理解/生成/编辑;新加坡国立大学提出 ViMU 数据集:涵盖 588 个视频与无提示问答

Lance是字节跳动于2026年发布的多模态模型,具备图像与视频的理解、生成和编辑能力。该模型采用双流混合专家架构,提升了文本、图像和视频任务的生成质量和语义理解能力。

字节开源 Lance,3B 模型包揽理解/生成/编辑;新加坡国立大学提出 ViMU 数据集:涵盖 588 个视频与无提示问答

HyperAI超神经
HyperAI超神经 · 2026-05-29T06:13:08Z
GR00T N1.7的简介与微调——其中的VLM是“基于Qwen3-VL”的Cosmos-Reason2,且预训练数据中包含2 万小时的 EgoScale人类视频数据(含GR00T N1.6的简介)

GR00T N1.6和N1.7是NVIDIA开发的视觉语言模型(VLM),用于机器人控制。N1.6改进了模型结构,支持灵活分辨率,并引入新数据集;N1.7在此基础上增强了模型的泛化能力,并在大量人类视频数据上进行预训练,提高了机器人控制的精确性和效率。

GR00T N1.7的简介与微调——其中的VLM是“基于Qwen3-VL”的Cosmos-Reason2,且预训练数据中包含2 万小时的 EgoScale人类视频数据(含GR00T N1.6的简介)

结构之法 算法之道
结构之法 算法之道 · 2026-05-27T08:00:00Z

本文介绍了如何使用Mimesis库生成平衡的反事实数据集,以审计机器学习模型的偏见。通过创建具有相同收入但不同性别的贷款申请者,揭示模型在性别上的歧视。实验结果表明,男性申请者更容易获得贷款批准,而女性则常被拒绝。这一方法有助于识别和纠正模型中的偏见。

使用Mimesis生成平衡数据集审计模型偏见

KDnuggets
KDnuggets · 2026-05-25T14:00:46Z
全新生图模型 Anima V1 发布:专注动漫风格的图像生成;MemLens 多模态长程记忆评估数据集:涵盖跨会话图文推理与知识更新机制

Anima V1 是 CircleStone Labs 于 2026 年推出的动漫风格图像生成模型,支持通过文本描述快速生成角色立绘和插画,用户可在 Gradio 界面中调整参数以提升创作效率。

全新生图模型 Anima V1 发布:专注动漫风格的图像生成;MemLens 多模态长程记忆评估数据集:涵盖跨会话图文推理与知识更新机制

HyperAI超神经
HyperAI超神经 · 2026-05-22T08:35:01Z
飞桨星河社区月度报告(2026年4月)

PaddleOCR 3.5和ERNIE-Image等新功能上线,支持文档转Markdown和浏览器OCR。社区活动如AICA公开课和黑客松持续推进,新增104个数据集,助力AI模型训练与应用。开发者可零门槛体验ERNIE-Image,提升文生图能力。

飞桨星河社区月度报告(2026年4月)

百度大脑
百度大脑 · 2026-05-14T11:07:43Z

本文介绍了如何使用Python和NumPy从零构建向量搜索引擎。向量搜索通过将文本表示为高维空间中的点,利用几何接近度编码语义相似性。文章详细讲解了数据集设置、索引构建、查询运行和结果可视化,展示了如何通过余弦相似度进行高效搜索。读者可以尝试用真实数据替换模拟嵌入,进一步探索向量搜索的应用。

如何在Python中从零构建向量搜索

KDnuggets
KDnuggets · 2026-05-08T12:00:32Z
本地可跑的隐私检测模型:Privacy Filter 低成本实现高质量 PII 过滤;硬核开源!涵盖超 8 万场比赛的 Transfermarkt 结构化足球数据集

Privacy Filter 是 OpenAI 开源的双向标记分类模型,专门用于检测和屏蔽文本中的个人身份信息。该模型基于小型预训练架构,采用高效的片段解码方式。

本地可跑的隐私检测模型:Privacy Filter 低成本实现高质量 PII 过滤;硬核开源!涵盖超 8 万场比赛的 Transfermarkt 结构化足球数据集

HyperAI超神经
HyperAI超神经 · 2026-04-30T05:32:10Z
10万引普林斯顿刘壮最新访谈:架构没那么重要,数据才是王道

刘壮教授在访谈中指出,AI领域的最大瓶颈是记忆,而非能力。他认为架构选择不如数据规模和计算能力重要,现有数据集的多样性低于预期。大语言模型在语言空间有世界模型,但在视觉空间尚未实现。尽管AI在低层次任务上表现良好,但在自主科研和复杂问题上仍需人类参与。

10万引普林斯顿刘壮最新访谈:架构没那么重要,数据才是王道

量子位
量子位 · 2026-04-29T04:20:49Z
麻省理工学院科学家建立全球最大的奥林匹克级数学题库,并向所有人开放

MathNet是一个包含超过30,000道数学竞赛题目的数据集,来自47个国家,旨在为AI研究者和全球学生提供训练资源。该数据集涵盖17种语言和143个竞赛,提供高质量的专家解答,帮助学生备战国际数学奥林匹克(IMO),并提升数学思维,尤其是在不同文化背景下的问题解决能力。

麻省理工学院科学家建立全球最大的奥林匹克级数学题库,并向所有人开放

MIT News - Artificial intelligence
MIT News - Artificial intelligence · 2026-04-24T17:00:00Z
背景编码代理:加速下游消费者数据集迁移(Honk,第4部分)

Spotify通过背景编码代理Honk简化了数据集迁移,节省了约10周的工程时间。团队利用Backstage和Fleet Management工具成功管理了1800个数据管道的迁移,尽管面临不同框架的挑战。项目强调了数据标准化和测试的重要性,以提高自动化迁移的成功率。未来,Honk将增强自我获取上下文的能力,进一步提升代码变更质量。

背景编码代理:加速下游消费者数据集迁移(Honk,第4部分)

Spotify Engineering
Spotify Engineering · 2026-04-22T19:39:08Z

随着AI在医疗领域的应用,高质量数据集成为提升模型性能的核心。医学影像、临床数据和生物信息学等多模态数据的快速增长,推动AI从图像识别向辅助诊疗发展。本文介绍了10个涵盖不同疾病和研究方向的医疗数据集,强调标准化数据和跨模态数据融合的重要性,为医疗AI的发展提供了基础和方向。

数据集汇总丨从医疗影像/临床数据,到细胞图谱/医学问答,10大数据集覆盖多类疾病场景

HyperAI超神经
HyperAI超神经 · 2026-04-22T06:18:42Z
戴盟机器人发布全模态物理世界数据集Daimon-Infinity

戴盟机器人发布了全球最大规模的全模态物理世界数据集Daimon-Infinity,涵盖触觉、视觉等多维信息,计划形成数百万小时的数据。该数据集将用于真实场景的物理交互,推动具身智能的发展,并已开源10000小时高质量数据,构建了外发式数据采集网络,形成完整的数据处理闭环。

戴盟机器人发布全模态物理世界数据集Daimon-Infinity

全球TMT-美通国际
全球TMT-美通国际 · 2026-04-21T08:33:07Z
全球最大规模含触觉数据集,凭什么吸引谷歌和众多高校的加入?

戴盟机器人联合多家顶尖机构发布了全球最大的触觉全模态数据集Daimon Infinity,旨在提升具身智能的训练效率。该数据集包含触觉和视觉等多维信息,预计年内达到数百万小时,助力机器人在复杂环境中精准操作。触觉数据的引入显著提高了模型的训练效果,推动行业标准化和资源共享,加速具身智能的商业化进程。

全球最大规模含触觉数据集,凭什么吸引谷歌和众多高校的加入?

量子位
量子位 · 2026-04-20T07:55:03Z
36.4万超声图文对!中国团队构建首个大规模超声专属数据集,让AI真正读懂临床诊断语义丨CVPR’26

浙大城市学院等团队构建了首个专用超声图像-文本数据集US-365K,解决了超声影像领域的数据缺口和语义模糊问题。提出的Ultrasound-CLIP框架通过结构化推理和双目标优化,提升了超声诊断的准确性和模型的泛化能力,相关成果已开源,为超声AI研究奠定基础。

36.4万超声图文对!中国团队构建首个大规模超声专属数据集,让AI真正读懂临床诊断语义丨CVPR’26

量子位
量子位 · 2026-04-12T07:21:17Z
ProText:用于测量长文本中性别化和误性别化的基准数据集

ProText是一个用于测量长文本中性别化和误性别化的数据集,涵盖主题名词、主题类别和代词类别。该数据集旨在通过先进的语言模型探讨文本转换中的性别偏见和刻板印象,研究发现模型在缺乏明确性别线索时倾向于默认异性恋假设,揭示了系统性性别偏见。

ProText:用于测量长文本中性别化和误性别化的基准数据集

Apple Machine Learning Research
Apple Machine Learning Research · 2026-03-31T00:00:00Z
打破代码大模型训练瓶颈:MicroCoder将算法数据框架训练经验升级

MicroCoder项目由微软亚洲研究院与剑桥、普林斯顿联合推出,针对现代代码模型训练瓶颈,提出34条训练经验,显著提升模型性能。该项目包括新算法、数据集和评估框架,强调数据难度与训练动态的重要性,推动代码生成领域的研究进展。

打破代码大模型训练瓶颈:MicroCoder将算法数据框架训练经验升级

量子位
量子位 · 2026-03-29T16:11:35Z
数据集汇总丨英伟达/OpenAI及多所科研机构开源推理数据集,覆盖数学/全景空间/Wiki问答/科研任务/视觉常识等

大模型的发展凸显了推理数据的重要性,优质推理数据集支持复杂推理任务。HyperAI整理了多领域推理数据集,降低了使用门槛,促进科研与模型训练。

数据集汇总丨英伟达/OpenAI及多所科研机构开源推理数据集,覆盖数学/全景空间/Wiki问答/科研任务/视觉常识等

HyperAI超神经
HyperAI超神经 · 2026-03-27T09:49:53Z
Google AI 发布 WAXAL:用于训练自动语音识别和文本转语音模型的多语言非洲语音数据集

WAXAL是一个开放的多语言语音数据集,涵盖24种非洲语言,专为自动语音识别(ASR)和文本转语音(TTS)设计。ASR部分通过图像提示自然采集语音,TTS部分在录音棚中高质量录制,确保语音一致性。

Google AI 发布 WAXAL:用于训练自动语音识别和文本转语音模型的多语言非洲语音数据集

实时互动网
实时互动网 · 2026-03-19T02:10:27Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码