小红花·文摘

本论文提出了一个初步实现的对话管理器，将视觉能力整合到对话代理中，以增强基于文本的提示与实时视觉输入。该系统的提示工程结合了对图像的对话与摘要，平衡了上下文保留和计算效率。通过实现视觉使能的对话系统，展望了无缝融合文本和视觉模态的丰富、上下文感知的对话。