小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
沉浸式翻译 immersive translate

本文系统整理了一批具身智能相关的高质量数据集、在线教程、论文,为进一步学习和研究提供参考,欢迎前往 hyper.ai 探索更多优质资源!

具身智能资源汇总:机器人学习数据集,在线体验世界建模模型,英伟达/字节/小米等最新研究论文

HyperAI超神经
HyperAI超神经 · 2026-01-23T06:09:46Z
我们在同一数据集上调优了四种分类器:没有一个真正改善

对葡萄牙学生表现数据进行四种分类器的超参数调优实验表明,调优未显著提升模型性能,反而略有下降。这表明默认设置在许多情况下已足够有效,强调了在机器学习中了解何时停止调优的重要性。

我们在同一数据集上调优了四种分类器:没有一个真正改善

KDnuggets
KDnuggets · 2026-01-20T15:00:39Z

九坤投资旗下至知创新研究院开源发布IQuest-Coder-V1代码大模型,该模型基于"代码流"思想,通过分析真实代码变更历史提升生成质量,支持128K长上下文处理。同时,HyperAI官网更新了包括vLLM部署教程、QwenLong-L1.5长文本模型及Qwen-Image-2512图像生成模型等资源,并收录AI百科词条和学术会议信息,为开发者提供一站式AI资源平台。

IQuest-Coder-V1:基于代码流训练的编程逻辑增强模型;Human Face Emotions:基于多标注维度的人脸情绪识别数据集

HyperAI超神经
HyperAI超神经 · 2026-01-19T09:10:46Z
Hugging Face发布FineTranslations,一个万亿标记的多语言平行文本数据集

Hugging Face发布了FineTranslations数据集,包含超过1万亿个平行文本标记,涵盖英语及500多种语言,旨在改善机器翻译,尤其是英语到低资源语言的翻译。数据集来源于FineWeb2,经过严格筛选和处理,确保质量,可通过Hugging Face访问,支持大规模处理。

Hugging Face发布FineTranslations,一个万亿标记的多语言平行文本数据集

InfoQ
InfoQ · 2026-01-18T08:00:00Z
生产环境中大数据集的分页:为何OFFSET失效而游标更胜一筹

MVP与生产就绪应用的区别在于细节和最后20%的工作。文章探讨了在大数据集上进行分页的问题,指出缺少索引和偏移分页会导致性能下降。通过采用基于游标的分页方式并添加索引,可以显著提升查询速度和用户体验。Sentry工具用于监测数据库查询性能,确保系统在实际使用中的表现良好。

生产环境中大数据集的分页:为何OFFSET失效而游标更胜一筹

Sentry Blog
Sentry Blog · 2026-01-15T00:00:00Z
NVIDIA发布开放模型、数据集和工具,涵盖人工智能、机器人和自动驾驶领域

NVIDIA发布了一系列开放模型、数据集和开发工具,涵盖语言、机器人和自动驾驶等领域。新模型包括Nemotron系列的语音识别和安全组件,以及支持感知和推理的Cosmos基础模型,还有专注于推理的Alpamayo自动驾驶模型。所有资源可通过GitHub和Hugging Face获取。

NVIDIA发布开放模型、数据集和工具,涵盖人工智能、机器人和自动驾驶领域

InfoQ
InfoQ · 2026-01-10T12:45:00Z
DuckDB的WebAssembly客户端允许在浏览器中查询Iceberg数据集

DuckDB最近推出了与Iceberg REST Catalogs的无服务器端到端交互,用户无需基础设施设置即可在浏览器中查询、读取和写入Iceberg表。该功能基于DuckDB-Wasm,确保浏览器和本地版本执行相同逻辑,用户可通过演示访问自己的S3表,所有计算在浏览器本地运行。

DuckDB的WebAssembly客户端允许在浏览器中查询Iceberg数据集

InfoQ
InfoQ · 2026-01-04T13:00:00Z
如何在自己的数据集上微调本地Mistral或Llama 3模型

本文介绍了如何使用Unsloth和QLoRA微调开源大语言模型,以提升客户支持效率。内容包括数据集准备、训练、测试和比较。通过微调,模型在特定领域的响应速度和一致性显著提高。教程涵盖Colab环境设置、数据集准备、模型训练及性能评估等步骤。

如何在自己的数据集上微调本地Mistral或Llama 3模型

MachineLearningMastery.com
MachineLearningMastery.com · 2025-12-19T09:00:17Z
即使是初学者也能在Python中处理大数据集的方法

使用Python处理大数据集不需要高级技能。通过分块读取、选择特定列和优化数据类型等技术,可以有效管理超出内存限制的数据集,适合初学者,提高数据处理效率。

即使是初学者也能在Python中处理大数据集的方法

KDnuggets
KDnuggets · 2025-12-17T15:23:55Z

阿里妈妈发布MUSE:用多模态搞定十万级超长行为序列,并开源Taobao-MM数据集

机器之心
机器之心 · 2025-12-16T05:26:42Z
AI 语音数据集如何助力打造自然流畅的语音系统

近年来,AI语音技术迅速发展,依赖于高质量、多样化的语音数据集。这些数据集通过数据收集、预处理和训练,帮助AI生成自然语音,广泛应用于虚拟助手和有声读物等领域。随着技术进步,语音AI的功能和个性化不断提升,确保数据质量和多样性至关重要。

AI 语音数据集如何助力打造自然流畅的语音系统

实时互动网
实时互动网 · 2025-12-12T03:30:13Z

HyperAI 超神经为大家整理了 11.17-11.21 期间一系列极具价值且应用广泛的教程和数据集,涵盖计算机视觉、生物学、多模态等多个领域~

开源性价比最优选!Mistral AI 发布 Ministral 3 系列模型,集成多模态理解与智能执行能力;从高动态舞蹈到日常行为,X-Dance 数据集解锁人体动画生成多维度测试

HyperAI超神经
HyperAI超神经 · 2025-12-08T07:55:58Z
Fluid - 一个开源的Kubernetes原生分布式数据集调度器和…

Fluid是一个开源项目,提供Kubernetes原生的数据抽象和加速,适用于大数据和AI应用。它整合异构存储为统一的数据集,提升I/O性能和延迟,支持分布式缓存和自动化数据操作,适合大规模训练和数据分析。

Fluid - 一个开源的Kubernetes原生分布式数据集调度器和…

云原生
云原生 · 2025-12-08T07:37:09Z
海量多领域数据集:一站获取高质量公开资源 | 开源日报 No.812

ComfyUI-WanVideoWrapper 是一个集成 WanVideo 的自定义节点包装器,支持多种视频生成模型,便于用户测试新功能。tinyauth 提供简单的登录保护,兼容主流代理服务器。git-mcp 是开源的远程模型上下文协议服务器,帮助 AI 工具访问最新代码。opentelemetry-collector-contrib 是 OpenTelemetry 的扩展,提供多样化的采集器组件。awesome-public-datasets 列出高质量公共数据集。

海量多领域数据集:一站获取高质量公开资源 | 开源日报 No.812

开源服务指南
开源服务指南 · 2025-12-07T23:35:15Z
基于真实世界数据集的时间序列与趋势分析挑战

本文分析了2020至2025年的通胀预期,采用移动平均、同比变化和布林带三种方法。移动平均揭示趋势方向,同比变化反映动量变化,而布林带则显示波动性。这些不同的技术提供了对同一数据的多重解读,强调了分析方法选择的重要性。

基于真实世界数据集的时间序列与趋势分析挑战

KDnuggets
KDnuggets · 2025-12-03T16:32:12Z

自动再平衡比较方便,因为不需要人工维护,但是它的执行过程是不可预测的:再平衡时将大量数据集从一个节点转移到另一个节点的过程中可能会产生很大的网络开销,这会使得该服务器对请求响应的性能降低,对用户的体验和生产造成负面影响。来传播集群状态的变化,这样每个节点都维护有最新的数据路由方案,当其中一个节点收到请求时,会将其转发到合适的分区节点上(对应服务发现的方案一)。的方法:每个节点上有固定的分区数...

用“分区”来面对超大数据集和超大吞吐量

京东科技开发者
京东科技开发者 · 2025-12-03T09:47:46Z
AWS Clean Rooms 推出用于机器学习模型训练的隐私增强型合成数据集生成功能

AWS Clean Rooms推出合成数据集生成功能,帮助组织生成保留原始数据统计特征的合成数据,解决数据可用性与隐私保护的矛盾,降低重识别风险,并支持自定义隐私参数,确保合成数据符合隐私合规要求。

AWS Clean Rooms 推出用于机器学习模型训练的隐私增强型合成数据集生成功能

亚马逊AWS官方博客
亚马逊AWS官方博客 · 2025-12-03T02:07:47Z

自动再平衡比较方便,因为不需要人工维护,但是它的执行过程是不可预测的:再平衡时将大量数据集从一个节点转移到另一个节点的过程中可能会产生很大的网络开销,这会使得该服务器对请求响应的性能降低,对用户的体验和生产造成负面影响。来传播集群状态的变化,这样每个节点都维护有最新的数据路由方案,当其中一个节点收到请求时,会将其转发到合适的分区节点上(对应服务发现的方案一)。的方法:每个节点上有固定的分区数...

用“分区”来面对超大数据集和超大吞吐量

京东科技开发者
京东科技开发者 · 2025-11-26T09:03:28Z

HyperAI 超神经为大家整理了 11.17-11.21 期间一系列极具价值且应用广泛的教程和数据集,涵盖视频生成、图像编辑、OCR 等多个领域~

百度出招!OCR模型PaddleOCR-VL打破管道与端到端方法局限;面部情感识别数据集Facial Emotion Recognition,赋能 AI 读懂表情

HyperAI超神经
HyperAI超神经 · 2025-11-25T06:07:47Z

睿尔曼开源全球首个高质量多模态真机数据集,旨在解决机器人研发中的数据瓶颈,推动智能机器人算法创新。数据来源于真实场景,确保高保真度和稳定性,促进机器人技术发展,构建开放共享的生态系统。

睿尔曼开源全球首个高质量、模态数量最多的真机数据集

量子位
量子位 · 2025-11-24T11:15:34Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码