本研究提出了T2ICountBench基准,用于评估文本到图像生成模型的计数能力。研究发现,现有模型在生成物体数量时表现不佳,尤其在数量较多时准确率显著下降。
谷歌揭秘大模型计数能力不足的原因是嵌入维度不够大,词向量无法保持正交性。词汇量的增加是导致大模型计数能力下降的主要原因。作者认为这项研究划定了大模型计数能力的上下界,但仍有改进空间。
完成下面两步后,将自动完成登录并继续当前操作。