小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
GR00T N1.7的简介与微调——其中的VLM是“基于Qwen3-VL”的Cosmos-Reason2,且预训练数据中包含2 万小时的 EgoScale人类视频数据(含GR00T N1.6的简介)

GR00T N1.6和N1.7是NVIDIA开发的视觉语言模型(VLM),用于机器人控制。N1.6改进了模型结构,支持灵活分辨率,并引入新数据集;N1.7在此基础上增强了模型的泛化能力,并在大量人类视频数据上进行预训练,提高了机器人控制的精确性和效率。

GR00T N1.7的简介与微调——其中的VLM是“基于Qwen3-VL”的Cosmos-Reason2,且预训练数据中包含2 万小时的 EgoScale人类视频数据(含GR00T N1.6的简介)

结构之法 算法之道
结构之法 算法之道 · 2026-05-27T08:00:00Z
当200位具身从业者被拉进同一个屋子

具身智能的关注点已转向数据模型,数据采集面临认知对齐的挑战,模型训练需要大量真实数据。评测标准亟需统一,低分不一定代表模型性能差。未来应重视数据质量与复用性,推动无感化数据采集,以提升模型的泛化能力。

当200位具身从业者被拉进同一个屋子

量子位
量子位 · 2026-04-28T04:27:02Z
LARYBench 发布:定义具身动作表征 ImageNet,首次度量从人类视频学习的泛化表征

本文介绍了LARYBench,一个用于评估隐式动作表征的基准系统,旨在提升机器人在不同环境中的泛化能力。LARYBench分析了大规模人类视频数据,提供超过一百万段标注视频,涵盖151种动作,支持多样化的机器人形态和操作场景。实验结果表明,通用视觉模型在动作泛化和控制精度上优于专门模型,强调了隐式动作表征的重要性。

LARYBench 发布:定义具身动作表征 ImageNet,首次度量从人类视频学习的泛化表征

美团技术团队
美团技术团队 · 2026-04-27T00:00:00Z
更好的工具:利用评估数据进行工具优化的方案

通过使用评估数据(evals),我们可以迭代改进智能代理的性能。评估数据作为训练数据,指导代理学习和优化行为。强调数据质量和设计的重要性,以避免过拟合,并通过手动编写、生产追踪和外部数据集获取评估,确保代理在新输入上的泛化能力。

更好的工具:利用评估数据进行工具优化的方案

LangChain Blog
LangChain Blog · 2026-04-08T19:30:20Z
超越真实数据:从正则化的视角看合成数据

合成数据在真实数据稀缺时可提升模型的泛化能力,但过度依赖可能导致性能下降。本文提出一个学习理论框架,量化合成数据与真实数据之间的权衡,利用算法稳定性推导泛化误差界限,以确定最优的合成与真实数据比例。通过对混合数据的核岭回归分析,发现合成数据比例与测试误差呈U型关系,并在CIFAR-10和临床脑MRI数据集上进行了验证。理论扩展至领域适应,表明合理混合合成目标数据与有限源数据可减轻领域偏移,增强泛化能力。

超越真实数据:从正则化的视角看合成数据

Apple Machine Learning Research
Apple Machine Learning Research · 2026-03-30T00:00:00Z
突破传统:ReSU 神经网络单元——从果蝇大脑中获得的 AI 新灵感

研究团队提出了一种新型神经元模型ReSU,克服了传统深度学习的局限。ReSU通过自监督学习和时间动态性,模拟生物神经元特性,展现出更高的能效和更好的泛化能力,为AI发展提供新方向,并有助于理解生物系统的工作原理。

突破传统:ReSU 神经网络单元——从果蝇大脑中获得的 AI 新灵感

Micropaper
Micropaper · 2026-03-02T01:00:00Z
Agent World Model:1000 个合成环境,让 AI 智能体学习效率翻倍

Agent World Model(AWM)是一个生成1000个合成环境的系统,解决了智能体训练环境多样性不足的问题。它提供丰富的工具和任务,确保智能体的泛化能力超越传统方法。AWM通过代码驱动和数据库支持,系统化合成流程,推动智能体训练进步,为未来AI发展奠定基础。

Agent World Model:1000 个合成环境,让 AI 智能体学习效率翻倍

Micropaper
Micropaper · 2026-02-28T13:45:00Z

Agent World Model(AWM)是一种新型合成环境生成管道,创建了1000个多样化场景以解决智能体训练中的环境稀缺问题。AWM通过代码驱动和数据库支持,确保环境的一致性和高效交互。实验结果表明,AWM训练的智能体在分布外泛化能力上优于传统方法,展示了合成环境在人工智能训练中的潜力。

Agent World Model 研究:1000 个合成环境推动智能体训练革命

Micropaper
Micropaper · 2026-02-28T13:40:00Z
X-VLA——基于Soft Prompt的Transformer编码器练就可扩展的跨本体VLA:VLM做多模态感知,DiT-style做动作生成

本文介绍了一种新型机器人学习模型X-VLA,采用软提示技术以提升跨具身机器人学习的适应性和泛化能力。通过引入可学习的嵌入,X-VLA有效解决了不同硬件和任务环境下的异质性问题,增强了模型在多样化数据集上的表现。该模型在多个基准测试中表现优异,展现出在灵巧操作和适应新领域方面的强大能力。

X-VLA——基于Soft Prompt的Transformer编码器练就可扩展的跨本体VLA:VLM做多模态感知,DiT-style做动作生成

结构之法 算法之道
结构之法 算法之道 · 2026-02-21T05:00:30Z
RDT2——基于UMI数据实现零样本且跨本体的泛化:先训练VLM、后训练扩散动作专家、最后将扩散策略蒸馏为一步生成器(挑战叠衣服)

RDT2是一种新型机器人基础模型,旨在实现跨本体、物体和场景的零样本迁移能力。通过使用UMI数据集和三阶段训练策略,RDT2能够高效处理多样化的真实世界任务,提升机器人在未见物体和场景中的泛化能力。该模型在微调实验中表现优异,尤其在复杂操作和动态任务中,展现出显著的性能提升。

RDT2——基于UMI数据实现零样本且跨本体的泛化:先训练VLM、后训练扩散动作专家、最后将扩散策略蒸馏为一步生成器(挑战叠衣服)

结构之法 算法之道
结构之法 算法之道 · 2026-02-13T14:13:39Z
SpecTokenizer:压缩频谱域的轻量级流式编解码器

本文介绍了SpecTokenizer,一种轻量级流式神经音频编解码器,采用压缩谱域建模,显著降低计算量和参数规模。实验结果表明,其在低码率下优于现有模型,适合资源受限环境,具备良好的泛化能力和高效的部署潜力。

SpecTokenizer:压缩频谱域的轻量级流式编解码器

实时互动网
实时互动网 · 2026-02-06T02:51:20Z
HumanoidPF——让双足人形无碰撞穿越舱门的视觉-运动策略:基于人工势场APF和混合场景建模的全身RL算法

本文介绍了HumanoidPF(类人潜力场),一种用于人形机器人在杂乱室内场景中无碰撞穿越的技术。该方法通过编码人形体与障碍物的关系,提升机器人在复杂环境中的避障能力。研究者提出了一种混合场景生成策略,结合真实和程序化障碍物,增强训练效果。HumanoidPF被应用于Click-and-Traverse系统,实现高效遥操作导航,实验结果显示其在拥挤场景中表现优异,具有良好的泛化能力。

HumanoidPF——让双足人形无碰撞穿越舱门的视觉-运动策略:基于人工势场APF和混合场景建模的全身RL算法

结构之法 算法之道
结构之法 算法之道 · 2026-02-01T15:30:55Z

蚂蚁灵波开源的LingBot-VLA是当前最强的具身智能模型,基于20000小时真实数据,超越多个国际顶尖模型。它通过真实世界数据训练,解决了机器人在环境变化中的适应问题,展现出强大的泛化能力和高效的任务执行能力,为通用人工智能的发展提供了新路径。

蚂蚁具身智能明牌了:做大脑,和宇树们错位竞争

量子位
量子位 · 2026-01-28T11:08:31Z
机器学习数据增强完全指南

数据增强通过微调现有数据生成新训练样本,帮助模型减少过拟合并提升泛化能力。文章讨论了图像、文本、音频和表格数据的增强方法,强调在线与离线增强的区别及避免数据泄露的重要性。

机器学习数据增强完全指南

MachineLearningMastery.com
MachineLearningMastery.com · 2026-01-16T11:00:51Z
交互式世界建模新方案!腾讯混元发布世界模型WorldPlay,兼顾实时生成与长期几何一致性;5万条样本!Med-Banana-50K支持增删病灶双向编辑

腾讯混元团队推出的世界模型WorldPlay,实现了实时交互式世界建模,解决了生成速度与内存占用的平衡问题。该模型采用双重动作表示法、重构上下文记忆机制和情境强迫蒸馏方法,能够以24 FPS生成720p高清流媒体视频,展现出优秀的泛化能力,为具身智能和游戏开发等领域开辟了新前景。

交互式世界建模新方案!腾讯混元发布世界模型WorldPlay,兼顾实时生成与长期几何一致性;5万条样本!Med-Banana-50K支持增删病灶双向编辑

HyperAI超神经
HyperAI超神经 · 2026-01-05T03:06:38Z

腾讯优图研究发现,AI生成图像检测器在真实场景中的表现不佳,主要由于训练数据的偏差。为此,提出了“双重数据对齐”方法,通过重构和对齐数据,显著提升了检测器的泛化能力。实验结果显示,该方法在多个基准测试中表现优异,真实场景中的准确率达到82.4%。

AIGC检测为何频频“看走眼”?腾讯优图揭秘:问题可能出在数据源头

量子位
量子位 · 2025-11-30T05:06:00Z
Ilya 罕见发声:Scaling 时代已结束,我们对 AGI 的定义可能全错了

Ilya Sutskever 表示,AI 的“规模时代”已结束,未来应重视研究。他指出,现有 AI 依赖大量数据,缺乏泛化能力,类似于只会死记硬背的学生。未来的 AI 应具备情感和价值函数,以提升学习效率。Ilya 认为,AGI 更像是聪明的少年,能够快速学习和整合经验,人类需与 AI 融合,以保持未来的主导地位。

Ilya 罕见发声:Scaling 时代已结束,我们对 AGI 的定义可能全错了

爱范儿
爱范儿 · 2025-11-26T09:46:26Z
Ilya:扩展时代已经结束了,研究的时代已经开始

Ilya Sutskever 在播客中讨论了 AI 的泛化能力不足、训练数据选择问题以及人类学习速度快的原因。他指出,当前 AI 模型在考试中表现良好,但在实际应用中能力有限,强调需要关注模型的泛化能力和学习效率。他认为 AGI 应该是能够快速学习的系统,而不是一开始就具备所有技能的成品。

Ilya:扩展时代已经结束了,研究的时代已经开始

宝玉的分享
宝玉的分享 · 2025-11-26T05:34:20Z

Ilya Sutskever在采访中表示,AI正从规模化时代回归科研时代,当前的预训练和扩展方法面临瓶颈,需重构研究范式。他指出模型的泛化能力不足,人类学习效率高于AI,未来AI发展应关注提升学习能力和安全性。

Ilya罕见发声:大模型「大力出奇迹」到头了

量子位
量子位 · 2025-11-26T01:04:15Z
Hugging Face推出了RTEB,一个用于评估检索模型的新基准

Hugging Face推出了检索嵌入基准(RTEB),旨在更准确地评估嵌入模型在实际检索任务中的泛化能力。该基准结合了公开和私有数据集,涵盖法律、医疗、金融等领域,支持多种语言,力求成为AI检索性能的社区标准。

Hugging Face推出了RTEB,一个用于评估检索模型的新基准

InfoQ
InfoQ · 2025-10-16T06:02:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码