小红花·文摘

ByteDance's New Innovation! Photos + Audio Transform the Mona Lisa into a Podcast Host

机器之心 ·

本文介绍了视觉对话任务，提出了一种基于视觉的通用测试方法和新的聊天数据收集协议。研究利用多种编码器和解码器，超越了复杂基准线，展示了“视觉聊天机器人”的性能。同时，介绍了交互式图像检索方法和新数据集PhotoChat，促进了图像文本建模研究，解决了有趣的现实问题。

ChatSearch：通用对话图像检索的数据集和生成检索模型

BriefGPT - AI 论文速递 ·

Evaluation is All You Need！首个开源多模态大模型通用评测器LLaVA-Critic

机器之心 ·

本文介绍了一种新颖的知识桥梁图网络模型，旨在通过自适应信息选择提升视觉对话推理能力。研究探讨了视觉知识与语言模型的整合，提出了结构感知的视觉-语言预训练模型Structure-CLIP和插入式模块X-adapter，以提高多模态任务的性能。实验结果表明，这些方法在视觉问答和图像字幕生成等任务中表现优异。

HeGraphAdapter：使用异构图适配器调整多模态视觉语言模型

BriefGPT - AI 论文速递 ·

本文介绍了视觉对话任务及其研究进展，包括通用测试方法和数据收集协议。研究利用多种编码器和解码器，评估机器与人类的性能差距。新型注意力机制和CLEVR-Dialog数据集推动了多轮推理和视觉指代消解的研究。此外，OLViT模型在视频对话中实现了先进性能，展示了其在多模态对话状态跟踪中的优势。

通过多轮对话中的迭代对象-实体对齐增强视觉对话状态跟踪

BriefGPT - AI 论文速递 ·

本文探讨了视觉对话任务中的解码策略，分析了不同策略的优缺点。研究表明，核采样在质量优先时表现最佳，并提出了“选择性抽样”算法以提高多样性和连贯性。此外，动态词汇序列模型（DVS2S）显著提升了聊天机器人回答的质量和解码效率。

开放领域对话生成的动态随机解码策略

BriefGPT - AI 论文速递 ·

AffectVisDial是一个大规模数据集，包含50,000个10轮的视觉对话，用于测试在视觉对话中理解情感形成的能力。该数据集涉及基于对话的问答、情感预测和情感解释生成等三个技能。作者训练并展示了基于最先进模型的情感视觉对话基准，并指出其模型生成的回答显示了对视觉对话中情感推理能力有希望的结果。

VDialogUE: 一个统一的可视对话评估基准

BriefGPT - AI 论文速递 ·