💡
原文中文,约3500字,阅读约需9分钟。
📝
内容提要
清华大学等研究人员发布了名为MultiTrust的综合基准,对多模态大语言模型的可信度进行了全面评估。研究人员发现多模态大模型存在幻觉、偏见、隐私泄漏等安全威胁,并维护了一个多模态大模型可信度榜单。未来需要创新高效的算法来提升多模态大模型的可信度。
🎯
关键要点
- 清华大学等研究人员发布了MultiTrust基准,评估多模态大语言模型的可信度。
- 多模态大模型存在幻觉、偏见、隐私泄漏等安全威胁,影响其可靠性。
- MultiTrust基准提炼出五个可信评价维度:事实性、安全性、鲁棒性、公平性、隐私保护。
- MultiTrust构建了32个任务场景,覆盖判别和生成任务,评估多模态大模型的风险。
- 多模态风险和跨模态影响是评估新模态带来的新问题和挑战。
- 研究维护了一个多模态大模型可信度榜单,闭源商用模型普遍更安全可靠。
- 尽管商用模型进行了安全加固,但仍存在对抗攻击和多模态越狱攻击的脆弱性。
- 多模态大模型的可信性与其通用能力相关,但在不同维度上表现存在差异。
- 提升多模态大模型的可信度需要创新高效的算法和多元化的训练数据。
- 研究团队公开了MMTrustEval工具包,推进多模态大模型的可信研究。
➡️