小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
飞桨星河社区月度报告(2026年4月)

PaddleOCR 3.5和ERNIE-Image等新功能上线,支持文档转Markdown和浏览器OCR。社区活动如AICA公开课和黑客松持续推进,新增104个数据集,助力AI模型训练与应用。开发者可零门槛体验ERNIE-Image,提升文生图能力。

飞桨星河社区月度报告(2026年4月)

百度大脑
百度大脑 · 2026-05-14T11:07:43Z

本文介绍了如何使用Python和NumPy从零构建向量搜索引擎。向量搜索通过将文本表示为高维空间中的点,利用几何接近度编码语义相似性。文章详细讲解了数据集设置、索引构建、查询运行和结果可视化,展示了如何通过余弦相似度进行高效搜索。读者可以尝试用真实数据替换模拟嵌入,进一步探索向量搜索的应用。

如何在Python中从零构建向量搜索

KDnuggets
KDnuggets · 2026-05-08T12:00:32Z
本地可跑的隐私检测模型:Privacy Filter 低成本实现高质量 PII 过滤;硬核开源!涵盖超 8 万场比赛的 Transfermarkt 结构化足球数据集

Privacy Filter 是 OpenAI 开源的双向标记分类模型,专门用于检测和屏蔽文本中的个人身份信息。该模型基于小型预训练架构,采用高效的片段解码方式。

本地可跑的隐私检测模型:Privacy Filter 低成本实现高质量 PII 过滤;硬核开源!涵盖超 8 万场比赛的 Transfermarkt 结构化足球数据集

HyperAI超神经
HyperAI超神经 · 2026-04-30T05:32:10Z
10万引普林斯顿刘壮最新访谈:架构没那么重要,数据才是王道

刘壮教授在访谈中指出,AI领域的最大瓶颈是记忆,而非能力。他认为架构选择不如数据规模和计算能力重要,现有数据集的多样性低于预期。大语言模型在语言空间有世界模型,但在视觉空间尚未实现。尽管AI在低层次任务上表现良好,但在自主科研和复杂问题上仍需人类参与。

10万引普林斯顿刘壮最新访谈:架构没那么重要,数据才是王道

量子位
量子位 · 2026-04-29T04:20:49Z
麻省理工学院科学家建立全球最大的奥林匹克级数学题库,并向所有人开放

MathNet是一个包含超过30,000道数学竞赛题目的数据集,来自47个国家,旨在为AI研究者和全球学生提供训练资源。该数据集涵盖17种语言和143个竞赛,提供高质量的专家解答,帮助学生备战国际数学奥林匹克(IMO),并提升数学思维,尤其是在不同文化背景下的问题解决能力。

麻省理工学院科学家建立全球最大的奥林匹克级数学题库,并向所有人开放

MIT News - Artificial intelligence
MIT News - Artificial intelligence · 2026-04-24T17:00:00Z
背景编码代理:加速下游消费者数据集迁移(Honk,第4部分)

Spotify通过背景编码代理Honk简化了数据集迁移,节省了约10周的工程时间。团队利用Backstage和Fleet Management工具成功管理了1800个数据管道的迁移,尽管面临不同框架的挑战。项目强调了数据标准化和测试的重要性,以提高自动化迁移的成功率。未来,Honk将增强自我获取上下文的能力,进一步提升代码变更质量。

背景编码代理:加速下游消费者数据集迁移(Honk,第4部分)

Spotify Engineering
Spotify Engineering · 2026-04-22T19:39:08Z

随着AI在医疗领域的应用,高质量数据集成为提升模型性能的核心。医学影像、临床数据和生物信息学等多模态数据的快速增长,推动AI从图像识别向辅助诊疗发展。本文介绍了10个涵盖不同疾病和研究方向的医疗数据集,强调标准化数据和跨模态数据融合的重要性,为医疗AI的发展提供了基础和方向。

数据集汇总丨从医疗影像/临床数据,到细胞图谱/医学问答,10大数据集覆盖多类疾病场景

HyperAI超神经
HyperAI超神经 · 2026-04-22T06:18:42Z
戴盟机器人发布全模态物理世界数据集Daimon-Infinity

戴盟机器人发布了全球最大规模的全模态物理世界数据集Daimon-Infinity,涵盖触觉、视觉等多维信息,计划形成数百万小时的数据。该数据集将用于真实场景的物理交互,推动具身智能的发展,并已开源10000小时高质量数据,构建了外发式数据采集网络,形成完整的数据处理闭环。

戴盟机器人发布全模态物理世界数据集Daimon-Infinity

全球TMT-美通国际
全球TMT-美通国际 · 2026-04-21T08:33:07Z
全球最大规模含触觉数据集,凭什么吸引谷歌和众多高校的加入?

戴盟机器人联合多家顶尖机构发布了全球最大的触觉全模态数据集Daimon Infinity,旨在提升具身智能的训练效率。该数据集包含触觉和视觉等多维信息,预计年内达到数百万小时,助力机器人在复杂环境中精准操作。触觉数据的引入显著提高了模型的训练效果,推动行业标准化和资源共享,加速具身智能的商业化进程。

全球最大规模含触觉数据集,凭什么吸引谷歌和众多高校的加入?

量子位
量子位 · 2026-04-20T07:55:03Z
36.4万超声图文对!中国团队构建首个大规模超声专属数据集,让AI真正读懂临床诊断语义丨CVPR’26

浙大城市学院等团队构建了首个专用超声图像-文本数据集US-365K,解决了超声影像领域的数据缺口和语义模糊问题。提出的Ultrasound-CLIP框架通过结构化推理和双目标优化,提升了超声诊断的准确性和模型的泛化能力,相关成果已开源,为超声AI研究奠定基础。

36.4万超声图文对!中国团队构建首个大规模超声专属数据集,让AI真正读懂临床诊断语义丨CVPR’26

量子位
量子位 · 2026-04-12T07:21:17Z
ProText:用于测量长文本中性别化和误性别化的基准数据集

ProText是一个用于测量长文本中性别化和误性别化的数据集,涵盖主题名词、主题类别和代词类别。该数据集旨在通过先进的语言模型探讨文本转换中的性别偏见和刻板印象,研究发现模型在缺乏明确性别线索时倾向于默认异性恋假设,揭示了系统性性别偏见。

ProText:用于测量长文本中性别化和误性别化的基准数据集

Apple Machine Learning Research
Apple Machine Learning Research · 2026-03-31T00:00:00Z
打破代码大模型训练瓶颈:MicroCoder将算法数据框架训练经验升级

MicroCoder项目由微软亚洲研究院与剑桥、普林斯顿联合推出,针对现代代码模型训练瓶颈,提出34条训练经验,显著提升模型性能。该项目包括新算法、数据集和评估框架,强调数据难度与训练动态的重要性,推动代码生成领域的研究进展。

打破代码大模型训练瓶颈:MicroCoder将算法数据框架训练经验升级

量子位
量子位 · 2026-03-29T16:11:35Z
数据集汇总丨英伟达/OpenAI及多所科研机构开源推理数据集,覆盖数学/全景空间/Wiki问答/科研任务/视觉常识等

大模型的发展凸显了推理数据的重要性,优质推理数据集支持复杂推理任务。HyperAI整理了多领域推理数据集,降低了使用门槛,促进科研与模型训练。

数据集汇总丨英伟达/OpenAI及多所科研机构开源推理数据集,覆盖数学/全景空间/Wiki问答/科研任务/视觉常识等

HyperAI超神经
HyperAI超神经 · 2026-03-27T09:49:53Z
Google AI 发布 WAXAL:用于训练自动语音识别和文本转语音模型的多语言非洲语音数据集

WAXAL是一个开放的多语言语音数据集,涵盖24种非洲语言,专为自动语音识别(ASR)和文本转语音(TTS)设计。ASR部分通过图像提示自然采集语音,TTS部分在录音棚中高质量录制,确保语音一致性。

Google AI 发布 WAXAL:用于训练自动语音识别和文本转语音模型的多语言非洲语音数据集

实时互动网
实时互动网 · 2026-03-19T02:10:27Z
基于Gemini处理150国新闻,谷歌开源洪水数据集Groundsource,覆盖超260万历史记录

洪水是常见且破坏性强的自然灾害,研究需依赖高质量的历史数据。Google Research 开源的 Groundsource 数据集,通过处理500万篇新闻,提取了260万条洪水事件记录,填补了传统数据库的不足,为全球洪水研究提供了新的数据来源。

基于Gemini处理150国新闻,谷歌开源洪水数据集Groundsource,覆盖超260万历史记录

HyperAI超神经
HyperAI超神经 · 2026-03-18T08:23:48Z

本文探讨了五种常用的异常值检测方法在葡萄酒数据集上的表现。实验表明,不同方法的结果一致性较差,且对“异常”的定义各异。作者建议在选择检测方法时,明确目标并结合多种方法,以提高检测的可靠性。同时,异常值不一定要删除,应结合领域知识进行判断。

我们在一个真实数据集上使用了五种异常值检测方法:它们对96%的标记样本意见不一致

KDnuggets
KDnuggets · 2026-03-13T14:00:48Z
低延迟、多语种、轻量化,Voxtral Realtime 打破 ASR 全场景桎梏;可穿戴设备设计福音!Antenna Performance 构建天线性能与故障数据集

Mistral AI于2026年2月开源了Voxtral Mini 4B Realtime 2602模型,支持13种语言的实时语音转录,延迟低于500毫秒,适合轻量化应用,并可在边缘计算单元上部署,提升语音识别的精度与效率。

低延迟、多语种、轻量化,Voxtral Realtime 打破 ASR 全场景桎梏;可穿戴设备设计福音!Antenna Performance 构建天线性能与故障数据集

HyperAI超神经
HyperAI超神经 · 2026-03-13T08:23:29Z
mAceReason-Math:一个高质量的多语言数学问题数据集,支持强化学习与可验证奖励(RLVR)

mAceReason-Math是一个高质量的多语言数学问题数据集,支持强化学习与可验证奖励(RLVR)研究。该数据集包含来自AceReason-Math语料库的挑战性数学问题翻译,覆盖14种语言,每种语言超过10,000个样本,旨在提升多语言RLVR的研究和基准测试。

mAceReason-Math:一个高质量的多语言数学问题数据集,支持强化学习与可验证奖励(RLVR)

Apple Machine Learning Research
Apple Machine Learning Research · 2026-03-13T00:00:00Z
真·养虾!3步让龙虾边聊边进化,不用GPU不用数据集就能强化学习

MetaClaw通过在线强化学习系统,使AI在与用户对话中自动学习和进化,无需GPU和数据集。用户只需简单配置,AI即可实时优化表现并生成新技能,降低了持续学习的门槛。

真·养虾!3步让龙虾边聊边进化,不用GPU不用数据集就能强化学习

量子位
量子位 · 2026-03-12T05:14:14Z
MOSS-TTS:基于 CAT 架构的解耦式生产级语音生成模型;打破单细胞分析壁垒:Pan-Cancer scRNA-Seq 数据集构建跨癌种免疫图谱基准

MOSS-TTS系列是MOSI.AI与OpenMOSS联合推出的多模型语音生成工具,克服了单一模型在复杂场景中的局限,支持高保真语音、对话和实时交互,适用于多种语言和风格切换。

MOSS-TTS:基于 CAT 架构的解耦式生产级语音生成模型;打破单细胞分析壁垒:Pan-Cancer scRNA-Seq 数据集构建跨癌种免疫图谱基准

HyperAI超神经
HyperAI超神经 · 2026-03-06T06:01:17Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码