BriefGPT - AI 论文速递 ·

文本到图像的跨模态自适应双重关联

💡 原文英文，约100词，阅读约需1分钟。

📝

内容提要

本文介绍了一种名为SSAN的语义自对齐网络，用于解决文本到图像中的人物再识别问题。SSAN通过提取语义对齐的部分级特征，并设计了一个多视角非局部网络来捕捉身体部分之间的关系，建立身体部位和名词短语之间的对应关系。实验证明，该方法在性能上优于现有方法，并提供了新的数据集和代码。

🎯

关键要点

提出了一种语义自对齐网络 (SSAN)，用于解决文本到图像中的人物再识别问题。
SSAN 自动提取语义对齐的部分级特征，并设计了多视角非局部网络捕捉身体部分之间的关系。
建立身体部位和名词短语之间的对应关系。
引入了 Compound Ranking (CR) loss，利用同一身份的其他图像的文本描述提供额外监督。
有效降低文本特征的类内差异。
经过实验验证，SSAN 在性能上优于现有的最先进方法和一些高级算法。
提供了新的 ICFG-PEDES 数据集和 SSAN 代码。

🏷️

标签

CR损失 SSAN 人物再识别语义自对齐网络身体部分

➡️

继续阅读

Q2 2026 earnings call: Remarks from our CEO
Read an edited transcript of Sundar Pichai’s remarks from the Q2 2026 Alphabe...
Django 6.1 release candidate 1 released
Django 6.1 release candidate 1 is now available. It represents the final oppo...
Price-hiked iPads are a little cheaper right now
A number of Apple products got more expensive last month, so we’re happy to f...
iOS code could reportedly let Apple cut off apps when users miss iPhone payments
Code found in an iOS 27 beta would allow Apple to put a financed iPhone in &#...
酷鸭数据美国CN2 云服务器测评，1核1G 5M 仅需14.85元/月
酷鸭数据美国洛杉矶VPS测评：2核4G 7M带宽，电信去回程走CN2，联通AS4837，移动CMIN2，三网直连延迟约173ms。性能中等，解锁Netfl...
Copilot vs. raw API access: What are you actually paying for?
Copilot now bills usage at listed API rates. Compare direct model access with...