本研究提出了GUI-Bee自主智能体,旨在解决GUI动作定位在新环境中的适应性问题。通过探索和收集特定环境数据,进一步微调模型,显著提高了在新环境下的表现,推动了GUI自动化的发展。
本文介绍了一种新型动作定位方法,利用视觉线索和伪注释提高视频中动作的时空定位精度。通过多种算法和模型的结合,该方法在THUMOS14和ActivityNet v1.3数据集上表现优异,展示了其有效性和优势。
本研究提出了一种简单但强大的基准线,通过利用预训练的I-VL模型和视频理解任务的能力进行训练。在行动识别、动作定位和文本-视频检索等任务中,实现了与现有方法相当或最新的性能。通过消融研究分析了关键组件和静态图像、视频之间的差距。
该论文提出了ADM-Loc框架,用于点监督的动作定位。通过高斯和均匀分布拟合动作分类信号,生成动作提案,并在THUMOS14和ActivityNet-v1.2数据集上超越最先进的点监督方法。
该研究提出了一种基准线,利用预训练的I-VL模型进行视频理解任务的最小化训练,并将视频相关任务转化为预训练目标相同的格式。在10个公共基准测试中,实现了与现有方法相当或最新的性能。同时,进行了广泛的消融研究以分析关键组件以及与静态图像和视频之间的差距。
该研究提出了一种基准线,利用预训练的I-VL模型进行视频理解任务的最小化训练,并将视频相关任务转化为预训练目标相同的格式。在行动识别、动作定位和文本-视频检索等测试中,实现了与现有方法相当或最新的性能。同时,进行了广泛的消融研究以分析关键组件以及与静态图像和视频之间的差距。
完成下面两步后,将自动完成登录并继续当前操作。