小红花·文摘 - 小红花技术领袖俱乐部

本研究提出TRISHUL框架，旨在提升基于大型视觉语言模型的图形用户界面（GUI）代理的跨数据集和跨平台泛化能力。通过层次屏幕解析和空间增强元素描述，TRISHUL实现了更全面的GUI理解，并在多个基准数据集上展现出优越性能，设立了新的标准。

TRISHUL: Towards Region Identification and Screen Hierarchy Understanding for Large Visual Language Models

BriefGPT - AI 论文速递 ·

本研究提出了一种新方法，通过分段任意模型（SAM）特征对齐，显著提升了跨数据集边缘检测中的标签不确定性与粒度的性能。

SAUGE: Taming SAM for Uncertainty Alignment in Multi-Granularity Edge Detection

BriefGPT - AI 论文速递 ·

本文介绍了一种新型立体成像方法DCVSMNet，具备快速推理和强泛化能力。该方法通过耦合模块融合几何信息，优化深度匹配的准确性。同时，CFNet模型通过融合低分辨率代价体，提升跨数据集的匹配能力。研究表明，这些方法在多个基准数据集上表现优异。

Ghost-Stereo：基于 GhostNet 的立体匹配网络的代价体积增强与聚合

BriefGPT - AI 论文速递 ·