本文探讨了视觉语言模型(VLMs)在基础视觉线索关联能力上的表现,并提出了VLM²-Bench评测框架。研究发现,尽管VLMs在多图和视频处理上有所提升,但在视觉线索关联能力,尤其是人物识别任务中仍显不足。分析表明,语言和视觉中心的提示方法对模型性能有显著影响,并指出未来研究方向。
当前文献关注文学小说中引文归属问题,研究了人物识别、指代消解、引文辨别和说话人归属四个子任务。通过评估最先进的模型在大量注释了核心指代和引文的文学小说数据集上,发现一个简单的连续预测模型在说话人归属任务上具有与最先进模型相当的准确性分数。
微软计划在Windows 11的内置应用中增加更多AI能力,包括画图、照片和截屏应用。画图应用将获得类似于Bing Image Creator的功能,照片应用将加入物体/人物识别,截屏应用将加入OCR功能。
完成下面两步后,将自动完成登录并继续当前操作。