小红花·文摘

AI 范式雷达：《ScaleCUA — 可验证数据合成如何突破 Computer Use Agent 的能力天花板》

Micropaper ·

迅策发布全球首款TokenOS操作系统TokenONE

全球TMT-美通国际 ·

蚂蚁集团投资上海的大晓机器人，标志着2026年首笔投资。大晓机器人专注于以人为中心的ACE研发，致力于解决具身智能领域的数据稀缺问题，团队由顶级科学家王晓刚和陶大程领导。

蚂蚁投了一家上海具身智能公司

量子位 ·

美团 EvoCUA 刷新开源 SOTA，会用电脑还会持续进化的智能体！

美团技术团队 ·

国产公司极佳视界发布GigaWorld-0模型，成功将VLA模型训练中生成数据比例提升至90%，性能提升近300%。该模型通过生成高保真、多样化的具身交互数据，解决了真实数据稀缺问题，推动具身智能发展。

世界模型和具身大脑最新突破：90%生成数据，VLA性能暴涨300%｜开源

量子位 ·

$TrajBooster——通过“轨迹中心学习”提升人形全身操作能力的VLA：把智元轮式数据迁移到宇树G1上，先二次预训练后微调(免去动捕)$

TrajBooster——通过“轨迹中心学习”提升人形全身操作能力的VLA：把智元轮式数据迁移到宇树G1上，先二次预训练后微调(免去动捕)

结构之法算法之道 ·

清华大学与上海AI实验室提出了SimpleVLA-RL方案，旨在解决机器人训练中的数据稀缺和泛化能力不足问题。该方案通过交互式轨迹采样、结果奖励建模和探索增强，显著提升了模型在复杂环境中的表现，实验结果在多个基准测试中达到了SOTA性能。

缺数据也能拿SOTA？清华&上海AI Lab破解机器人RL两大瓶颈

量子位 ·

常博士提出了“预测大模型”概念，旨在通过统一学习海量数据，克服特定场景AI模型的局限性。该模型能够迁移至新场景，解决数据稀缺问题，实现高效应用。未来，AGI将具备灵活的知识迁移能力，推动智能进化。

预测大模型工业生存法则,华为博士告诉你什么是B端最需要的大模型

量子位 ·

复旦大学与腾讯优图实验室提出的新算法DualAnoDiff，通过双分支并行生成机制，解决了工业品异常检测中的数据稀缺问题。该模型生成的异常图像与原始数据高度一致，显著提升了检测性能，实验结果显示其在真实性和多样性上优于现有方法。

用大模型检测工业品异常，复旦腾讯优图新算法入选CVPR 2025

量子位 ·

本研究探讨了移动健康领域合成传感器数据生成中的挑战，特别是数据稀缺和隐私问题。通过新的评估框架，发现现有生成模型在多模态性和长程依赖性方面存在局限，影响了跨模态一致性和时间连贯性，并指明了未来研究方向。

Challenges and Limitations in the Synthetic Generation of mHealth Sensor Data

BriefGPT - AI 论文速递 ·

本研究提出了FedIFL框架，旨在解决电动系统故障诊断中的数据稀缺和标签不一致问题。通过原型对比学习和特征解耦机制，提升了模型的泛化能力，实现了准确的故障诊断。

FedIFL: A Federated Cross-Domain Diagnostic Framework for Motor-Driven Systems with Inconsistent Fault Modes

BriefGPT - AI 论文速递 ·

本研究系统性回顾了生成语言建模中低资源语言的数据稀缺问题，评估了54项研究提出的技术策略，如单语数据增强和多语言训练。发现现有方法主要集中于少数低资源语言，评估方法不一致，并提出了扩展建议以支持更多低资源语言的生成模型构建。

Overcoming Data Scarcity in Generative Language Modeling for Low-Resource Languages: A Systematic Review

BriefGPT - AI 论文速递 ·

本研究提出了一种名为Synthline的产品线方法，旨在解决需求工程中高质量数据稀缺的问题。通过利用大语言模型生成合成需求数据，研究发现合成数据虽然多样性低于真实数据，但与真实数据结合使用时，模型性能显著提升，尤其精确度提高了85%。

Synthline：一种基于产品线的方法用于利用大语言模型生成合成需求工程数据

BriefGPT - AI 论文速递 ·

本研究提出PARC框架，结合机器学习与物理仿真，解决了复杂环境中角色灵活运动的数据稀缺问题，提升了角色控制器的性能。

PARC: Physics-Based Enhancement and Reinforcement Learning for Character Controllers

BriefGPT - AI 论文速递 ·

本文探讨了变换器在多步骤事实推理中的不足，并提出通过合成数据增强知识图谱以解决数据稀缺问题。研究表明，即使是错误的合成数据也能提升模型的推理能力，最终在多跳推理基准上实现95-100%的准确率，显著超越现有基线。

Grokking in the Wild: Data Augmentation for Real-World Multi-Hop Reasoning

BriefGPT - AI 论文速递 ·

本文探讨了Humanoid-VLA模型，旨在解决人形机器人运动控制中的数据稀缺问题。通过将非自我中心的人体运动数据与语言描述对齐，利用自监督学习生成伪注释，提升模型的运动生成能力。该框架有效整合语言理解、场景感知与运动控制，推动人形机器人在复杂环境中的自主操作。

从视频中学习的最新进展：从Humanoid-X(自动打字幕)、首个人形VLA Humanoid-VLA到一看视频就学会的VideoMimic

结构之法算法之道 ·

本研究提出了一种新型合成字幕生成技术，旨在解决大规模视觉-语言模型预训练中的数据稀缺问题。该技术能够生成高质量、低幻觉的合成字幕，显著提升模型在视觉语言任务中的表现，特别是在文本到图像领域。

Low-Hallucination Synthetic Captions for Large-Scale Vision-Language Model Pre-training

BriefGPT - AI 论文速递 ·

本研究提出RoboTwin框架，旨在解决双臂机器人在复杂物体操控中的数据稀缺和评估不足问题。通过3D生成模型和大型语言模型，创建多样化的专家数据集，显著提高双臂机器人操作的成功率，单臂任务提升超过70%，双臂任务提升超过40%。

RoboTwin: Dual-Arm Robot Benchmark and Generative Digital Twins

BriefGPT - AI 论文速递 ·

传统预训练正走向终结，推理优化与后训练提升有限，大模型今后如何突破发展瓶颈？

机器之心 ·

本研究提出了一种新颖的混合框架MetaBoost，以解决代谢综合症预测中的类别不平衡和数据稀缺问题。通过优化合成数据生成，模型准确率提升了1.14%。反事实分析显示，血糖和甘油三酯是降低代谢综合症风险的重要指标。

Enhancing Metabolic Syndrome Prediction through Hybrid Data Balancing and Counterfactual Analysis

BriefGPT - AI 论文速递 ·