小红花·文摘

百度大脑 ·

InfoQ ·

我爱自然语言处理 ·

Helix是首款高速控制的人形机器人，能够灵活应对复杂家庭场景。通过结合快慢系统，Helix实现高效的视觉语言理解与动作执行，支持自然语言指令，提升操作的泛化能力和效率。

结构之法算法之道 ·

本文探讨了逆向视觉问答（iVQA）及其在视觉语言理解中的应用。提出了一种能够生成多样化且相关问题的iVQA模型，并研究了基于知识的视觉问答（KVQA），提出了新颖的集成方法（MAIL），在多个数据集上表现优异。结合任务特定模型与预训练语言模型，研究表明可以有效提升视觉问答的性能。

BriefGPT - AI 论文速递 ·

本研究介绍了视觉语言理解评估基准VLUE，评估VLP模型的泛化能力和效率。研究发现，VLP模型在处理未见文化领域图像时存在泛化差距，并提出了CafeBERT模型。此外，探讨了视频与语言理解模型的多任务能力，强调文化对理解的影响，提出了CFLUE和VALSE基准以评估语言模型的能力和文化多样性。

BriefGPT - AI 论文速递 ·