小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
π0.7——4层prompt下的技能组合泛化能力:先高层策略基于指令历史和当前画面输出子任务指令,后世界模型基于子任务指令生成子目标图像

π0.7是一种新型通用机器人模型,具备强大的组合泛化能力。通过多模态数据和详细上下文标注,该模型能够有效执行多样化任务,并在新任务中展现灵巧技能。它结合了人类视频和机器人自主数据,提升了在复杂环境中的表现。引入子目标图像和任务元数据增强了模型的指令理解和执行能力,使其在多样化数据上训练时表现出色。

π0.7——4层prompt下的技能组合泛化能力:先高层策略基于指令历史和当前画面输出子任务指令,后世界模型基于子任务指令生成子目标图像

结构之法 算法之道
结构之法 算法之道 · 2026-04-19T09:37:07Z
超越无限:工具使用解锁状态空间模型中的长度泛化

状态空间模型(SSMs)在序列建模中逐渐取代变换器,因其在长上下文生成中的高效性。研究表明,通过与外部工具互动,SSMs能够克服在“真正的长形式”生成中的局限,实现任意问题长度的泛化。这表明SSMs在交互式工具应用中可能成为变换器的高效替代方案。

超越无限:工具使用解锁状态空间模型中的长度泛化

Apple Machine Learning Research
Apple Machine Learning Research · 2026-03-27T00:00:00Z
你的模型真的会”举一反三”吗?RoboChallenge Table30 V2 正式发布,泛化时代开幕

RoboChallenge发布的Table30 V2旨在提升具身智能模型的泛化能力。新版本引入多任务、零样本测试和双臂协作,评测标准和系统吞吐量提升300%。该平台为全球研究者提供公平的竞技环境,推动具身智能的发展。

你的模型真的会”举一反三”吗?RoboChallenge Table30 V2 正式发布,泛化时代开幕

量子位
量子位 · 2026-03-24T08:33:52Z
精准识别「界门纲目科属种」!北大彭宇新团队用细粒度树先验提升泛化,破解生物类别分层识别难题

北京大学彭宇新团队提出了分类感知表征对齐方法TARA,旨在解决多模态大模型在生物类别分层识别中的挑战,提升细粒度和分层视觉识别的准确率。该方法通过对齐大模型与生物基础模型的表征,注入类别树知识,从而增强模型的识别能力。

精准识别「界门纲目科属种」!北大彭宇新团队用细粒度树先验提升泛化,破解生物类别分层识别难题

量子位
量子位 · 2026-03-21T09:48:18Z
电子商务搜索中的稀疏嵌入微调 | 第4部分:专业化与泛化

本文探讨了电子商务搜索中的稀疏嵌入微调,分析了专业化与泛化的权衡。研究表明,专注于特定领域的微调在单一零售商中效果最佳,而多领域训练则在多个零售商中更具泛化能力。微调模型能够更好地理解特定领域的搜索模式和词汇,从而提升搜索效果。

电子商务搜索中的稀疏嵌入微调 | 第4部分:专业化与泛化

Qdrant - Vector Database
Qdrant - Vector Database · 2026-03-09T00:00:00Z
EMBridge:通过跨模态表示学习提升肌电信号的手势泛化能力

EMBridge是一个跨模态表示学习框架,旨在通过将表面肌电信号(sEMG)与高质量结构化数据对齐,提升手势识别的准确性。该框架采用查询变换器和对比学习目标,实现了零样本手势分类,展示了在可穿戴设备上进行手势识别的潜力。

EMBridge:通过跨模态表示学习提升肌电信号的手势泛化能力

Apple Machine Learning Research
Apple Machine Learning Research · 2026-03-03T00:00:00Z
GigaBrain-0——通过世界模型GigaWorld增强VLA的泛化能力:基于RGBD输入建模,及通过具身CoT增强推理能力

GigaBrain-0是一种新型视觉-语言-动作(VLA)模型,旨在通过整合视觉输入、自然语言指令和运动控制,提升机器人在多样环境中的操作能力。该模型利用生成的数据,降低对真实世界数据的依赖,提高泛化能力和数据效率。GigaBrain-0采用混合架构,增强空间感知能力,并通过生成中间推理步骤,模拟人类问题解决过程,实现更精确的操作和决策。

GigaBrain-0——通过世界模型GigaWorld增强VLA的泛化能力:基于RGBD输入建模,及通过具身CoT增强推理能力

结构之法 算法之道
结构之法 算法之道 · 2026-02-14T12:16:31Z
RDT2——基于UMI数据实现零样本且跨本体的泛化:先训练VLM、后训练扩散动作专家、最后将扩散策略蒸馏为一步生成器(挑战叠衣服)

RDT2是一种新型机器人基础模型,旨在实现跨本体、物体和场景的零样本迁移能力。通过使用UMI数据集和三阶段训练策略,RDT2能够高效处理多样化的真实世界任务,提升机器人在未见物体和场景中的泛化能力。该模型在微调实验中表现优异,尤其在复杂操作和动态任务中,展现出显著的性能提升。

RDT2——基于UMI数据实现零样本且跨本体的泛化:先训练VLM、后训练扩散动作专家、最后将扩散策略蒸馏为一步生成器(挑战叠衣服)

结构之法 算法之道
结构之法 算法之道 · 2026-02-13T14:13:39Z
Nature子刊|上智院、复旦、无限光年发布MAPLE框架,破解甲基化衰老与疾病风险预测的泛化难题

AI短名单是对长篇文章的简要概述,旨在提炼出核心信息。

Nature子刊|上智院、复旦、无限光年发布MAPLE框架,破解甲基化衰老与疾病风险预测的泛化难题

机器之心
机器之心 · 2026-01-23T06:04:23Z
SIMA 2利用Gemini和自我改进在未见的3D和真实感世界中实现泛化

Google DeepMind推出SIMA 2,这是一种基于Gemini模型的通用智能体,能够在多个3D虚拟环境中理解和行动。与前版本相比,SIMA 2具备制定多步计划和与用户讨论策略的能力。研究显示,该智能体在游戏测试中接近人类表现,并能在新环境中自我改进。SIMA 2的应用潜力包括机器人领域,但仍面临复杂任务的挑战。

SIMA 2利用Gemini和自我改进在未见的3D和真实感世界中实现泛化

InfoQ
InfoQ · 2025-12-29T11:05:00Z
语音基础模型在可穿戴传感器数据时间序列任务中的泛化

本研究探讨了语音基础模型在可穿戴传感器数据时间序列任务中的应用,发现该模型在情绪分类和心律失常检测等任务中表现优异。通过简单的探测方法,提升了数据稀缺时间序列任务的性能,促进了语音与传感器模态的统一发展。

语音基础模型在可穿戴传感器数据时间序列任务中的泛化

Apple Machine Learning Research
Apple Machine Learning Research · 2025-11-20T00:00:00Z
CPEP:对比姿态-肌电预训练提升基于肌电信号的手势泛化能力

本文介绍了一种对比姿态-肌电预训练(CPEP)框架,旨在提升基于肌电信号的手势分类性能。通过对低质量数据与高质量数据的对齐,CPEP提高了表示质量,实现了零样本分类。实验结果显示,该模型在已知手势分类上提高了21%,在未知手势分类上提高了72%。

CPEP:对比姿态-肌电预训练提升基于肌电信号的手势泛化能力

Apple Machine Learning Research
Apple Machine Learning Research · 2025-10-16T00:00:00Z
关于促进扩散变换器泛化能力的归纳偏差

本文探讨了扩散变换器(DiT)模型的归纳偏差对泛化能力的影响。研究发现,局部注意力窗口与泛化能力密切相关,通过限制注意力窗口并注入局部注意力,可以显著提高模型的泛化和生成质量,尤其在训练数据较少的情况下。优化DiT的归纳偏差有助于提升性能。

关于促进扩散变换器泛化能力的归纳偏差

Apple Machine Learning Research
Apple Machine Learning Research · 2025-09-22T00:00:00Z

机器之心数据服务现已上线,提供高效稳定的数据获取服务,帮助用户轻松获取所需数据。

具身VLA后训练:TeleAI提出潜空间引导的VLA跨本体泛化方法

机器之心
机器之心 · 2025-09-08T06:35:22Z

机器之心数据服务现已上线,提供高效稳定的数据获取,简化数据爬取流程。

CoRL 2025|隐空间扩散世界模型LaDi-WM大幅提升机器人操作策略的成功率和跨场景泛化能力

机器之心
机器之心 · 2025-08-17T11:49:16Z
情感模型对非典型语音的泛化能力较弱

语音和声音条件影响语音的声学特性,从而影响情感模型的表现。研究表明,非典型语音的情感预测结果与典型语音显著不同,尤其在悲伤情感的预测上。通过微调伪标记的非典型语音数据,可以提升模型在此类语音上的表现,强调了更广泛的训练和评估数据集的必要性。

情感模型对非典型语音的泛化能力较弱

Apple Machine Learning Research
Apple Machine Learning Research · 2025-08-01T00:00:00Z

美国东北大学与波士顿动力RAI联合提出的HEP框架,通过坐标系转移接口实现机器人高效学习。该框架的分层结构提升了灵活性,自动适应空间变化,显著降低了数据依赖。实验结果显示,HEP在复杂任务中的成功率提升了60%,为未来多模态智能体集成提供了新路径。

机器人高层指挥低层做,“坐标系转移接口”一次演示实现泛化学习 | ICML2025

量子位
量子位 · 2025-07-22T09:28:14Z

机器之心数据服务现已上线,提供高效稳定的数据获取,简化数据爬取流程。

Transformer死角,只需500步后训练,循环模型突破256k长度泛化极限

机器之心
机器之心 · 2025-07-08T05:07:42Z

本文介绍了VITAL策略学习框架,通过将操作任务分为到达和局部交互两个阶段,结合视觉和触觉感知,提高机器人在精细操作中的成功率和泛化能力。VITAL利用视觉-语言模型进行目标定位,并通过触觉反馈实现高精度操作,克服了模仿学习和强化学习的局限性。

VITAL——结合ResNet视觉与MLP触觉且带语义增强的适用于「电源插拔」的可泛化BC:先VLM定位、后执行在线残差RL微调的策略(MLP作为动作头)

结构之法 算法之道
结构之法 算法之道 · 2025-07-03T09:01:43Z

机器之心数据服务现已上线,提供高效稳定的数据获取,简化数据爬取流程。

90%导航成功率+泛化率,ETH的新强化学习方法使微型机器人在血管里不再迷路

机器之心
机器之心 · 2025-07-02T09:41:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码