大型多模态模型 (LMMs) 在为盲人或低视力用户提供自动视觉辅助方面具有潜力。通过实证评估 CLIP,在零样本分类任务中测试了 25 个 CLIP 变体,发现其在盲人用户捕获的图像上的准确性平均低了 15 个百分点。使用仅有 5 张图像进行少样本学习可以在某些情况下缓解 BLV 用户的 CLIP 的服务质量差异。
研究发现大型语言模型中情感以线性方式表示,涉及注意力和神经元机制,不仅在情绪化词汇上表示,也在中性位置总结。去除总结性情感方向会影响零样本分类任务的准确度。
完成下面两步后,将自动完成登录并继续当前操作。