字节跳动的INFP技术实现了交互式人像生成,能够在多轮对话中自然切换说话与倾听状态,通过双轨对话音频驱动肖像生成视频,提供沉浸式体验,推动视觉对话智能体的发展。
本文介绍了视觉对话任务,提出了一种基于视觉的通用测试方法和新的聊天数据收集协议。研究利用多种编码器和解码器,超越了复杂基准线,展示了“视觉聊天机器人”的性能。同时,介绍了交互式图像检索方法和新数据集PhotoChat,促进了图像文本建模研究,解决了有趣的现实问题。
字节跳动和马里兰大学发布了LLaVA-Critic,这是首个用于多任务评测的开源多模态大模型。它通过高质量评测数据集,在多模态场景中进行评分和排序,与人类和GPT-4o的偏好高度一致,并提升了视觉对话能力。
本文介绍了一种新颖的知识桥梁图网络模型,旨在通过自适应信息选择提升视觉对话推理能力。研究探讨了视觉知识与语言模型的整合,提出了结构感知的视觉-语言预训练模型Structure-CLIP和插入式模块X-adapter,以提高多模态任务的性能。实验结果表明,这些方法在视觉问答和图像字幕生成等任务中表现优异。
本文介绍了视觉对话任务及其研究进展,包括通用测试方法和数据收集协议。研究利用多种编码器和解码器,评估机器与人类的性能差距。新型注意力机制和CLEVR-Dialog数据集推动了多轮推理和视觉指代消解的研究。此外,OLViT模型在视频对话中实现了先进性能,展示了其在多模态对话状态跟踪中的优势。
本文探讨了视觉对话任务中的解码策略,分析了不同策略的优缺点。研究表明,核采样在质量优先时表现最佳,并提出了“选择性抽样”算法以提高多样性和连贯性。此外,动态词汇序列模型(DVS2S)显著提升了聊天机器人回答的质量和解码效率。
AffectVisDial是一个大规模数据集,包含50,000个10轮的视觉对话,用于测试在视觉对话中理解情感形成的能力。该数据集涉及基于对话的问答、情感预测和情感解释生成等三个技能。作者训练并展示了基于最先进模型的情感视觉对话基准,并指出其模型生成的回答显示了对视觉对话中情感推理能力有希望的结果。
完成下面两步后,将自动完成登录并继续当前操作。