小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
背景编码代理:加速下游消费者数据集迁移(Honk,第4部分)

Spotify通过背景编码代理Honk简化了数据集迁移,节省了约10周的工程时间。团队利用Backstage和Fleet Management工具成功管理了1800个数据管道的迁移,尽管面临不同框架的挑战。项目强调了数据标准化和测试的重要性,以提高自动化迁移的成功率。未来,Honk将增强自我获取上下文的能力,进一步提升代码变更质量。

背景编码代理:加速下游消费者数据集迁移(Honk,第4部分)

Spotify Engineering
Spotify Engineering · 2026-04-22T19:39:08Z

随着AI在医疗领域的应用,高质量数据集成为提升模型性能的核心。医学影像、临床数据和生物信息学等多模态数据的快速增长,推动AI从图像识别向辅助诊疗发展。本文介绍了10个涵盖不同疾病和研究方向的医疗数据集,强调标准化数据和跨模态数据融合的重要性,为医疗AI的发展提供了基础和方向。

数据集汇总丨从医疗影像/临床数据,到细胞图谱/医学问答,10大数据集覆盖多类疾病场景

HyperAI超神经
HyperAI超神经 · 2026-04-22T06:18:42Z
戴盟机器人发布全模态物理世界数据集Daimon-Infinity

戴盟机器人发布了全球最大规模的全模态物理世界数据集Daimon-Infinity,涵盖触觉、视觉等多维信息,计划形成数百万小时的数据。该数据集将用于真实场景的物理交互,推动具身智能的发展,并已开源10000小时高质量数据,构建了外发式数据采集网络,形成完整的数据处理闭环。

戴盟机器人发布全模态物理世界数据集Daimon-Infinity

全球TMT-美通国际
全球TMT-美通国际 · 2026-04-21T08:33:07Z
全球最大规模含触觉数据集,凭什么吸引谷歌和众多高校的加入?

戴盟机器人联合多家顶尖机构发布了全球最大的触觉全模态数据集Daimon Infinity,旨在提升具身智能的训练效率。该数据集包含触觉和视觉等多维信息,预计年内达到数百万小时,助力机器人在复杂环境中精准操作。触觉数据的引入显著提高了模型的训练效果,推动行业标准化和资源共享,加速具身智能的商业化进程。

全球最大规模含触觉数据集,凭什么吸引谷歌和众多高校的加入?

量子位
量子位 · 2026-04-20T07:55:03Z
36.4万超声图文对!中国团队构建首个大规模超声专属数据集,让AI真正读懂临床诊断语义丨CVPR’26

浙大城市学院等团队构建了首个专用超声图像-文本数据集US-365K,解决了超声影像领域的数据缺口和语义模糊问题。提出的Ultrasound-CLIP框架通过结构化推理和双目标优化,提升了超声诊断的准确性和模型的泛化能力,相关成果已开源,为超声AI研究奠定基础。

36.4万超声图文对!中国团队构建首个大规模超声专属数据集,让AI真正读懂临床诊断语义丨CVPR’26

量子位
量子位 · 2026-04-12T07:21:17Z
ProText:用于测量长文本中性别化和误性别化的基准数据集

ProText是一个用于测量长文本中性别化和误性别化的数据集,涵盖主题名词、主题类别和代词类别。该数据集旨在通过先进的语言模型探讨文本转换中的性别偏见和刻板印象,研究发现模型在缺乏明确性别线索时倾向于默认异性恋假设,揭示了系统性性别偏见。

ProText:用于测量长文本中性别化和误性别化的基准数据集

Apple Machine Learning Research
Apple Machine Learning Research · 2026-03-31T00:00:00Z
打破代码大模型训练瓶颈:MicroCoder将算法数据框架训练经验升级

MicroCoder项目由微软亚洲研究院与剑桥、普林斯顿联合推出,针对现代代码模型训练瓶颈,提出34条训练经验,显著提升模型性能。该项目包括新算法、数据集和评估框架,强调数据难度与训练动态的重要性,推动代码生成领域的研究进展。

打破代码大模型训练瓶颈:MicroCoder将算法数据框架训练经验升级

量子位
量子位 · 2026-03-29T16:11:35Z
数据集汇总丨英伟达/OpenAI及多所科研机构开源推理数据集,覆盖数学/全景空间/Wiki问答/科研任务/视觉常识等

大模型的发展凸显了推理数据的重要性,优质推理数据集支持复杂推理任务。HyperAI整理了多领域推理数据集,降低了使用门槛,促进科研与模型训练。

数据集汇总丨英伟达/OpenAI及多所科研机构开源推理数据集,覆盖数学/全景空间/Wiki问答/科研任务/视觉常识等

HyperAI超神经
HyperAI超神经 · 2026-03-27T09:49:53Z
Google AI 发布 WAXAL:用于训练自动语音识别和文本转语音模型的多语言非洲语音数据集

WAXAL是一个开放的多语言语音数据集,涵盖24种非洲语言,专为自动语音识别(ASR)和文本转语音(TTS)设计。ASR部分通过图像提示自然采集语音,TTS部分在录音棚中高质量录制,确保语音一致性。

Google AI 发布 WAXAL:用于训练自动语音识别和文本转语音模型的多语言非洲语音数据集

实时互动网
实时互动网 · 2026-03-19T02:10:27Z
基于Gemini处理150国新闻,谷歌开源洪水数据集Groundsource,覆盖超260万历史记录

洪水是常见且破坏性强的自然灾害,研究需依赖高质量的历史数据。Google Research 开源的 Groundsource 数据集,通过处理500万篇新闻,提取了260万条洪水事件记录,填补了传统数据库的不足,为全球洪水研究提供了新的数据来源。

基于Gemini处理150国新闻,谷歌开源洪水数据集Groundsource,覆盖超260万历史记录

HyperAI超神经
HyperAI超神经 · 2026-03-18T08:23:48Z

本文探讨了五种常用的异常值检测方法在葡萄酒数据集上的表现。实验表明,不同方法的结果一致性较差,且对“异常”的定义各异。作者建议在选择检测方法时,明确目标并结合多种方法,以提高检测的可靠性。同时,异常值不一定要删除,应结合领域知识进行判断。

我们在一个真实数据集上使用了五种异常值检测方法:它们对96%的标记样本意见不一致

KDnuggets
KDnuggets · 2026-03-13T14:00:48Z
低延迟、多语种、轻量化,Voxtral Realtime 打破 ASR 全场景桎梏;可穿戴设备设计福音!Antenna Performance 构建天线性能与故障数据集

Mistral AI于2026年2月开源了Voxtral Mini 4B Realtime 2602模型,支持13种语言的实时语音转录,延迟低于500毫秒,适合轻量化应用,并可在边缘计算单元上部署,提升语音识别的精度与效率。

低延迟、多语种、轻量化,Voxtral Realtime 打破 ASR 全场景桎梏;可穿戴设备设计福音!Antenna Performance 构建天线性能与故障数据集

HyperAI超神经
HyperAI超神经 · 2026-03-13T08:23:29Z
mAceReason-Math:一个高质量的多语言数学问题数据集,支持强化学习与可验证奖励(RLVR)

mAceReason-Math是一个高质量的多语言数学问题数据集,支持强化学习与可验证奖励(RLVR)研究。该数据集包含来自AceReason-Math语料库的挑战性数学问题翻译,覆盖14种语言,每种语言超过10,000个样本,旨在提升多语言RLVR的研究和基准测试。

mAceReason-Math:一个高质量的多语言数学问题数据集,支持强化学习与可验证奖励(RLVR)

Apple Machine Learning Research
Apple Machine Learning Research · 2026-03-13T00:00:00Z
真·养虾!3步让龙虾边聊边进化,不用GPU不用数据集就能强化学习

MetaClaw通过在线强化学习系统,使AI在与用户对话中自动学习和进化,无需GPU和数据集。用户只需简单配置,AI即可实时优化表现并生成新技能,降低了持续学习的门槛。

真·养虾!3步让龙虾边聊边进化,不用GPU不用数据集就能强化学习

量子位
量子位 · 2026-03-12T05:14:14Z
MOSS-TTS:基于 CAT 架构的解耦式生产级语音生成模型;打破单细胞分析壁垒:Pan-Cancer scRNA-Seq 数据集构建跨癌种免疫图谱基准

MOSS-TTS系列是MOSI.AI与OpenMOSS联合推出的多模型语音生成工具,克服了单一模型在复杂场景中的局限,支持高保真语音、对话和实时交互,适用于多种语言和风格切换。

MOSS-TTS:基于 CAT 架构的解耦式生产级语音生成模型;打破单细胞分析壁垒:Pan-Cancer scRNA-Seq 数据集构建跨癌种免疫图谱基准

HyperAI超神经
HyperAI超神经 · 2026-03-06T06:01:17Z
内存占用最高降低75%,美国能源部科学家提出跨通道分层聚合方法D-CHAG,实现极大规模模型多通道数据集运行

研究人员提出了一种分布式跨通道分层聚合方法(D-CHAG),有效解决了多通道数据集的内存瓶颈和计算效率问题。该方法在高光谱成像和天气预测任务中表现优异,内存占用降低75%,吞吐量提升超过2倍。

内存占用最高降低75%,美国能源部科学家提出跨通道分层聚合方法D-CHAG,实现极大规模模型多通道数据集运行

HyperAI超神经
HyperAI超神经 · 2026-02-11T08:16:45Z
数据集汇总丨16个具身智能数据集,覆盖抓握/问答/逻辑推理/轨迹推理等领域

文章讨论了具身智能的研究进展,强调高质量数据集在模型训练中的重要性,并推荐了TongSIM-Asset、OmniRetarget和InternScenes等数据集,以推动具身智能的发展与应用。

数据集汇总丨16个具身智能数据集,覆盖抓握/问答/逻辑推理/轨迹推理等领域

HyperAI超神经
HyperAI超神经 · 2026-02-05T03:30:12Z
在Python中处理十亿行数据集(使用Vaex)

Vaex是一个高性能的Python库,专为处理超大数据集而设计。它通过外存处理和延迟计算,避免将整个数据集加载到内存中,实现快速分析,特别适合处理超过1GB的大数据。

在Python中处理十亿行数据集(使用Vaex)

KDnuggets
KDnuggets · 2026-02-02T17:00:24Z
FLUX.2‑klein‑4B:步数蒸馏实现 4 步亚秒级图像生成,在消费级 GPU 上体验实时交互;Vehicles OpenImages 数据集:专注车辆检测与定位

黑森林实验室发布的FLUX.2-klein-4B模型,通过步数蒸馏实现亚秒级推理,显存需求仅13GB,支持多种生成模式,提升了AI图像生成的实时交互能力。

FLUX.2‑klein‑4B:步数蒸馏实现 4 步亚秒级图像生成,在消费级 GPU 上体验实时交互;Vehicles OpenImages 数据集:专注车辆检测与定位

HyperAI超神经
HyperAI超神经 · 2026-02-02T08:33:47Z
TRELLIS.2:采用 O-Voxel 技术,高效生成复杂 3D 几何与材质;Patient Churn Prediction 数据集:帮助识别有流失风险的患者

微软团队于2025年12月开源TRELLIS.2,旨在通过单张图像生成高质量3D资产,简化建模流程。该项目支持多种分辨率,提升几何细节和纹理一致性,适用于3D内容制作与创意探索。

TRELLIS.2:采用 O-Voxel 技术,高效生成复杂 3D 几何与材质;Patient Churn Prediction 数据集:帮助识别有流失风险的患者

HyperAI超神经
HyperAI超神经 · 2026-01-26T07:49:18Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码