MIT News - Artificial intelligence ·

研究表明视觉语言模型无法处理包含否定词的查询

💡 原文英文，约1100词，阅读约需4分钟。

📝

内容提要

麻省理工学院的研究发现，视觉语言模型在处理否定词时表现不佳，可能导致错误诊断。研究者创建了包含否定词的数据集以提升模型性能，但仍需进一步研究以解决根本问题。这一发现对医疗和制造等高风险领域具有重要意义。

🎯

🔎

研究表明，视觉语言模型在处理否定词时的表现不佳，可能导致医疗等高风险领域的误诊。这提醒我们，在使用这些模型时，必须重视否定词的影响，尤其是在需要精准判断的场景中。

当前的视觉语言模型未能有效识别否定词，主要是因为训练数据中缺乏相关示例。这一局限性意味着在实际应用中，模型可能无法准确理解复杂的语境，用户在依赖这些模型时需谨慎。

研究者提出，通过分开处理文本和图像，可能会提高模型对否定的理解能力。这为未来的研究提供了新的思路，尤其是在医疗和制造等领域，改进模型的准确性将具有重要意义。

❓

视觉语言模型在处理否定词时表现不佳，常常与随机猜测相当，导致错误诊断。

研究者创建了包含否定词的数据集，并通过微调模型来提升其在图像检索和多项选择问答任务中的性能。

研究发现可能导致错误诊断，特别是在医疗等高风险领域，使用视觉语言模型时需谨慎。

研究者设计了两个基准任务，测试模型在图像检索和多项选择问答中对否定词的理解能力。

在处理否定词时，模型的图像检索性能下降近25%。

未来研究可能通过分开处理文本和图像来提高模型理解否定的能力，并开发更多特定应用的数据集。

🏷️