字节跳动的INFP技术实现了交互式人像生成,能够在多轮对话中自然切换说话与倾听状态,通过双轨对话音频驱动肖像生成视频,提供沉浸式体验,推动视觉对话智能体的发展。
字节跳动和马里兰大学发布了LLaVA-Critic,这是首个用于多任务评测的开源多模态大模型。它通过高质量评测数据集,在多模态场景中进行评分和排序,与人类和GPT-4o的偏好高度一致,并提升了视觉对话能力。
AffectVisDial是一个大规模数据集,包含50,000个10轮的视觉对话,用于测试在视觉对话中理解情感形成的能力。该数据集涉及基于对话的问答、情感预测和情感解释生成等三个技能。作者训练并展示了基于最先进模型的情感视觉对话基准,并指出其模型生成的回答显示了对视觉对话中情感推理能力有希望的结果。
完成下面两步后,将自动完成登录并继续当前操作。