蚂蚁集团投资上海的大晓机器人,标志着2026年首笔投资。大晓机器人专注于以人为中心的ACE研发,致力于解决具身智能领域的数据稀缺问题,团队由顶级科学家王晓刚和陶大程领导。
美团技术团队推出EvoCUA模型,解决了大模型在复杂计算机操作中的数据稀缺和反馈缺失问题。EvoCUA通过可验证数据合成和经验进化学习,在OSWorld评测中取得56.7%的成功率,刷新开源记录,展示了其在GUI智能体领域的有效性。
国产公司极佳视界发布GigaWorld-0模型,成功将VLA模型训练中生成数据比例提升至90%,性能提升近300%。该模型通过生成高保真、多样化的具身交互数据,解决了真实数据稀缺问题,推动具身智能发展。
本文介绍了TrajBooster框架,旨在提升双足人形机器人全身操作能力。通过提取末端执行器轨迹并进行重定向,TrajBooster解决了数据稀缺问题,增强了视觉-语言-动作模型的泛化能力。该方法结合真实与仿真数据,经过二次预训练和微调,使机器人能够在复杂环境中自主执行多样化任务,展现出强大的操作能力和适应性。
清华大学与上海AI实验室提出了SimpleVLA-RL方案,旨在解决机器人训练中的数据稀缺和泛化能力不足问题。该方案通过交互式轨迹采样、结果奖励建模和探索增强,显著提升了模型在复杂环境中的表现,实验结果在多个基准测试中达到了SOTA性能。
常博士提出了“预测大模型”概念,旨在通过统一学习海量数据,克服特定场景AI模型的局限性。该模型能够迁移至新场景,解决数据稀缺问题,实现高效应用。未来,AGI将具备灵活的知识迁移能力,推动智能进化。
复旦大学与腾讯优图实验室提出的新算法DualAnoDiff,通过双分支并行生成机制,解决了工业品异常检测中的数据稀缺问题。该模型生成的异常图像与原始数据高度一致,显著提升了检测性能,实验结果显示其在真实性和多样性上优于现有方法。
本研究探讨了移动健康领域合成传感器数据生成中的挑战,特别是数据稀缺和隐私问题。通过新的评估框架,发现现有生成模型在多模态性和长程依赖性方面存在局限,影响了跨模态一致性和时间连贯性,并指明了未来研究方向。
本研究提出了FedIFL框架,旨在解决电动系统故障诊断中的数据稀缺和标签不一致问题。通过原型对比学习和特征解耦机制,提升了模型的泛化能力,实现了准确的故障诊断。
本研究系统性回顾了生成语言建模中低资源语言的数据稀缺问题,评估了54项研究提出的技术策略,如单语数据增强和多语言训练。发现现有方法主要集中于少数低资源语言,评估方法不一致,并提出了扩展建议以支持更多低资源语言的生成模型构建。
本研究提出了一种名为Synthline的产品线方法,旨在解决需求工程中高质量数据稀缺的问题。通过利用大语言模型生成合成需求数据,研究发现合成数据虽然多样性低于真实数据,但与真实数据结合使用时,模型性能显著提升,尤其精确度提高了85%。
本研究提出PARC框架,结合机器学习与物理仿真,解决了复杂环境中角色灵活运动的数据稀缺问题,提升了角色控制器的性能。
本文探讨了变换器在多步骤事实推理中的不足,并提出通过合成数据增强知识图谱以解决数据稀缺问题。研究表明,即使是错误的合成数据也能提升模型的推理能力,最终在多跳推理基准上实现95-100%的准确率,显著超越现有基线。
本文探讨了Humanoid-VLA模型,旨在解决人形机器人运动控制中的数据稀缺问题。通过将非自我中心的人体运动数据与语言描述对齐,利用自监督学习生成伪注释,提升模型的运动生成能力。该框架有效整合语言理解、场景感知与运动控制,推动人形机器人在复杂环境中的自主操作。
本研究提出了一种新型合成字幕生成技术,旨在解决大规模视觉-语言模型预训练中的数据稀缺问题。该技术能够生成高质量、低幻觉的合成字幕,显著提升模型在视觉语言任务中的表现,特别是在文本到图像领域。
本研究提出RoboTwin框架,旨在解决双臂机器人在复杂物体操控中的数据稀缺和评估不足问题。通过3D生成模型和大型语言模型,创建多样化的专家数据集,显著提高双臂机器人操作的成功率,单臂任务提升超过70%,双臂任务提升超过40%。
当前大模型面临数据稀缺问题,传统预训练模式难以持续。OpenAI创始人指出预训练将结束,研究将转向推理优化与后训练微调。新框架SICOG通过合成数据和自我进化机制提升模型能力,打破数据依赖,实现动态学习与持续优化,为未来人工智能发展提供新路径。
本研究提出了一种新颖的混合框架MetaBoost,以解决代谢综合症预测中的类别不平衡和数据稀缺问题。通过优化合成数据生成,模型准确率提升了1.14%。反事实分析显示,血糖和甘油三酯是降低代谢综合症风险的重要指标。
本研究提出了一种结合图像数据增强和基于网格的子域搜索策略的方法,以提升跨领域少样本目标检测的模型性能,为视觉-语言模型在数据稀缺环境中的应用提供了重要见解。
本研究评估了多种机器学习方法在农药对蜜蜂毒性数据稀缺问题上的表现,发现现有算法在非医学数据集上效果不佳,强调了开发针对性模型和多样化数据集的必要性。
完成下面两步后,将自动完成登录并继续当前操作。