本研究提出了一种新颖的腹腔镜手术视频生成任务,旨在解决手术数据稀缺和异质性问题。通过行动图和扩散模型,VISAGE能够基于单一初始帧预测未来视频,为手术模拟和机器人辅助手术提供支持。
本文提出了MLLM-Protector,旨在提升多模态大型语言模型(MLLMs)的安全性。通过结合轻量级有害检测器和响应解毒剂,该策略有效降低了恶意输入的风险。研究开发了视觉语言安全指令数据集VLGuard,并通过微调提升模型安全性,显著降低了对抗攻击的成功率。此外,提出了VISAGE安全度量标准,帮助评估LLMs的安全性,强调了系统提示在保护模型中的重要性。
近年来,利用强大的基于查询的检测器,在线视频实例分割(VIS)方法在帧级别利用检测器的输出查询,取得了极高的准确性。然而,我们观察到这些方法对位置信息的严重依赖导致在位置提示不足以解决模糊性时出现错误匹配。针对这个问题,我们提出了...
完成下面两步后,将自动完成登录并继续当前操作。