小红花·文摘

超越 SONIC ！人形机器人通用小脑迎来 GPT 时刻

mongona news ·

DreamZero——同时统一预测未来视觉状态与动作的世界动作模型：解决当下VLA如果人类不示教则理论强但具体操作不强的弊病，且提升任务泛化、本体泛化

结构之法算法之道 ·

P5是一个统一的推荐系统框架，通过将用户交互、描述和评论等数据转化为自然语言序列，实现个性化推荐。它在预训练阶段学习多种任务，具备良好的零样本泛化能力，有效提升推荐系统性能。

[译][论文] P5 paper | 用语言模型做推荐：一种统一的预训练、个性化提示和预测范式（2022）

ARTHURCHIAO'S BLOG ·

[译][论文] P5 paper | 用语言模型做推荐：一种统一的预训练、个性化提示和预测范式（2022）

ARTHURCHIAO'S BLOG ·

医学影像技术在诊断中至关重要，人工智能的发展推动了影像异常检测的进步。北京大学提出的MediCLIP方法能够在仅有少量正常影像的情况下有效检测异常，展现出良好的零样本泛化能力。

在线教程丨仅需极少量医学影像数据，MediCLIP 在异常检测与定位任务中刷新 SOTA

HyperAI超神经 ·

MediCLIP是一种高效的小样本医学影像异常检测方法，能够在仅有少量正常影像的情况下实现优异性能，适用于多种医学影像类型，并展现出良好的零样本泛化能力。

在线教程丨仅需极少量医学影像数据，MediCLIP在异常检测与定位任务中刷新SOTA

HyperAI超神经 ·

本研究提出EndoVLA模型，旨在解决传统内窥镜操作中对异常区域追踪能力不足和手动调优负担重的问题。该模型结合内窥镜图像与医生提示，整合视觉、语言和运动规划，采用双阶段策略，显著提升追踪性能和零样本泛化能力。

EndoVLA: A Dual-Phase Vision-Language-Action Model for Autonomous Tracking in Endoscopy

BriefGPT - AI 论文速递 ·

Meta AI 推出感知编码器：一款大规模视觉编码器，在图像和视频的多项视觉任务中表现出色

实时互动网 ·

合成数据也能通吃真实世界？首个融合重建-预测-规划的生成式世界模型AETHER开源

机器之心 ·

本文介绍了一种新型时间序列大模型PCTLM，克服了传统模型在复杂模式捕捉和零样本泛化能力上的不足。通过构建15亿样本的数据集和强化学习框架TPO，PCTLM在多个公开数据集上取得了SOTA效果，优于现有模型，并已成功应用于京东供应链系统。

【灯塔计划】供应链时序大模型探索

京东科技开发者 ·

CVPR满分论文 | 英伟达开源双目深度估计大模型FoundationStereo

机器之心 ·

本研究提出了统一框架Aether，旨在解决几何重建与生成建模的挑战。Aether通过联合优化实现几何感知推理，能够在没有真实数据的情况下进行零样本泛化，其重建性能超越领域特定模型，展现出在物理建模中的潜力。

艾瑟：几何感知统一世界建模

BriefGPT - AI 论文速递 ·

化解机器人的「幻觉」：北大发布OmniManip，VLM结合双闭环系统，3D理解能力大幅提升

机器之心 ·

本研究提出了EasyRef方法，利用多模态大语言模型解决传统方法在处理多张图像时缺乏交互的问题。实验结果表明，EasyRef在美学质量和零样本泛化能力上优于现有方法。

EasyRef: Omni-Generalized Group Image Reference for Diffusion Models via Multimodal Large Language Models

BriefGPT - AI 论文速递 ·

AI版《黑客帝国》由华人团队开发，能够生成720p高保真视频并实现实时交互，支持零样本泛化，结合游戏与现实场景数据，具备精确控制和流畅生成能力。

AI版《黑客帝国》：无限生成逼真视频，3A画质，还能实时交互

量子位 ·

本研究提出了一种基于异构时空图的机器人导航框架，针对拥挤和受限环境中的导航问题。通过深度强化学习，该方法显著提高了导航的成功率和效率，并具备良好的零样本泛化能力。

HEIGHT: Heterogeneous Interaction Graph Transformer for Robot Navigation in Crowded and Constrained Environments

BriefGPT - AI 论文速递 ·

机器人迈向ChatGPT时刻！清华团队首次发现具身智能Scaling Laws

机器之心 ·

本研究引入Llama-3-8B-Mob模型，解决了传统出行预测方法在多样化城市环境中的短期预测不足问题，实现了对未来15天的城市长期出行预测，结果优于现有方法，展现出强大的零样本泛化能力。

The Performance of Instruction-Tuned Llama-3-8B in Urban Travel Prediction

BriefGPT - AI 论文速递 ·

本研究提出了一种通用抓握策略，通过模拟人手控制，设计了基于人手特征的统一动作空间。在不同机器人手上的成功率达80%，并具备良好的零样本泛化能力。

Reinforcement Learning for Cross-Embodiment Dexterous Grasping

BriefGPT - AI 论文速递 ·

大型语言模型在认知研究中表现出复杂的认知行为，但在数学推理和组合性处理上仍存在挑战。研究表明，尽管模型具备相关知识，但无法自发组合以解决新问题。通过改进方法，如自然语言提示和微调，可以部分缓解这一缺陷。未来研究应关注模型的功能组合性和零样本泛化能力。

从词语到世界：认知架构的组合性

BriefGPT - AI 论文速递 ·