BriefGPT - AI 论文速递 ·

文本引导注意力是实现视觉语言模型零样本鲁棒性的全部需要

💡 原文中文，约1900字，阅读约需5分钟。

📝

内容提要

本研究分析了视觉-语言模型CLIP的零样本学习能力，提出了小样本微调和对抗微调方法，显著提高了模型在对抗攻击下的鲁棒性。同时，通过新颖的文本图像相互感知方法，增强了模型的分类稳健性，强调了提升零样本多模态模型鲁棒性的重要性。

🎯

❓

CLIP模型通过识别语言中的类标签实现零样本学习，其性能受属性数变化的显著影响。

小样本微调方法在有限训练数据和分布转变下显著提高了CLIP模型的鲁棒性，表现优于仅使用视觉的模型。

PMG-AFT通过利用预训练模型的监督，显著提高了模型的零样本对抗鲁棒性，抗干扰准确性平均提高4.99%。

通过学习稳健的文本提示，添加学习到的单词，可以显著提高模型的对抗攻击鲁棒性，准确性和鲁棒性分别提高13%和8.5%。

MTA方法无需训练过程，利用内在得分优化数据增强，展示了计算效率和优越性，适合零样本模型和少样本方法。

TIMA方法旨在实现零-shot对抗鲁棒性并保持零-shot泛化能力，关注CLIP模型的对抗扰动防御。

🏷️

深入探讨语言模型的校准：Platt缩放、等距回归与温度缩放
大型语言模型（LLMs）普遍存在误校准问题，导致信心分数与实际正确率不符。传统的后处理校准方法包括温度缩放、Platt缩放和等距回归，但由于LLMs的复杂...
Miso Labs发布MisoTTS：一款拥有开放权重的80亿情感文本转语音模型
Miso Labs发布了MisoTTS，这是一款拥有80亿参数的文本转语音模型，采用残差矢量量化技术，能够根据文本和音频上下文生成富有表现力的语音。该模型...
我们在2026年5月发布的最新AI新闻
谷歌在2026年5月推出了多个AI相关产品，包括Gemini 3.5和Gemini Omni，旨在提升日常生活便利性。新应用Google Health和F...
How OpenAI Built a Secure Windows Sandbox for Codex Agents
OpenAI details Codex Windows sandbox architecture, showing how SIDs, ACLs, re...
MAHA希望将棉花打造成新的牛脂
美国农业部推出“伟大的美国棉花计划”，旨在推广本土棉花，支持农民和国内制造业。尽管消费者对天然纤维服装的兴趣上升，但棉花生产面临高成本和化学品使用问题，且...
你说我的新智能秤是‘为GLP-1用户设计的’是什么意思？
Withings推出的BodyFit智能秤专为GLP-1用户设计，旨在监测肌肉质量。GLP-1药物可能导致肌肉流失，因此需要关注蛋白质摄入和力量训练。尽管...