使用 Gecko 重新审视文本到图像评估:关于指标、提示和人类评级
原文中文,约500字,阅读约需2分钟。发表于: 。我们通过对自动评价度量和人类模板进行广泛研究,介绍了一种综合的基于技能的基准,收集了超过 100,000 个注释,并引入了一种新的基于问答的自动评价度量,以在各种人类模板和 TIFA160 上更好地与人类评分相关联。
最近的文本到图像(T2I)模型取得了巨大成功,提出了一个名为ImplicitBench的基准来评估其性能和安全性。实验结果显示,T2I模型能够准确创建由隐性提示指示的目标符号,但隐性提示也带来了隐私泄露的潜在风险。大多数模型中的NSFW约束可以通过隐性提示绕过。呼吁T2I社区更关注隐性提示的潜力和风险,并进一步调查其能力和影响。