量子位 ·

只因一个“：”，大模型全军覆没

💡 原文中文，约3800字，阅读约需9分钟。

📝

内容提要

研究发现，某些符号（如冒号、空格）和推理开头语会误导大型语言模型（LLM），导致假阳性结果。为此，研究人员开发了新模型Master-RM，显著降低了假阳性率，提高了模型的稳健性。

🎯

关键要点

某些符号（如冒号、空格）和推理开头语会误导大型语言模型（LLM），导致假阳性结果。
研究人员开发了新模型Master-RM，显著降低了假阳性率，提高了模型的稳健性。
LLM在评估答案质量时容易受到表面内容的操控，产生假阳性奖励。
研究发现，所有通用LLM（如GPT-4o、Claude-4、LLaMA3-70B）均会触发假阳性响应。
假阳性诱导因素包括非文字符号和推理开头语，具有跨语言的普遍性。
模型大小与假阳性率之间并非完全单调关系，较大的模型不一定更不容易被骗。
研究人员构建的Master-RM模型在测试中假阳性率接近0%，且鲁棒性强。
研究团队来自腾讯AI Lab、普林斯顿大学和弗吉尼亚大学，具有丰富的研究背景。

❓

延伸问答

什么符号会误导大型语言模型产生假阳性结果？

冒号、空格以及推理开头语如“Thought process:”和“解”等符号会误导大型语言模型，导致假阳性结果。

Master-RM模型的主要优势是什么？

Master-RM模型显著降低了假阳性率，接近0%，并提高了模型的稳健性。

所有大型语言模型是否都容易受到假阳性影响？

是的，所有通用大型语言模型如GPT-4o、Claude-4和LLaMA3-70B均会触发假阳性响应。

假阳性率与模型大小之间的关系是什么？

模型大小与假阳性率之间并非完全单调关系，较大的模型不一定更不容易被骗。

如何减少大型语言模型的假阳性问题？

通过构建新的“评委”模型Master-RM，并使用增强训练数据集，可以有效减少假阳性问题。

研究团队的背景是什么？

研究团队来自腾讯AI Lab、普林斯顿大学和弗吉尼亚大学，具有丰富的研究背景。

🏷️

继续阅读

国产大模型编码能力实测(GLM 5.1、Kimi K2.6、Mimo v2.5 Pro 和 DeepSeek V4 Pro)
本文对四款国产大模型（GLM 5.1、Kimi K2.6、Mimo v2.5 Pro 和 DeepSeek V4 Pro）的编码能力进行了实测。结果显示，...
【Rust日报】2026-05-01 Rust 原生数据表格组件 uiGrid 发布
Rust 原生数据表格组件 uiGrid 发布一个为 egui 开发的功能丰富的数据表格组件已在 GitHub 开源，采用 MIT 许可证。主要特性 ...
DeepSeek V4 发布没炸场，却靠降价掀起革命？
DeepSeek V4 发布后，通过降价策略打破了高 Token 价格和订阅套餐的束缚，用户可按需付费，吸引了更多低频用户，改变了市场格局。
早报｜苹果：下季度内存成本压力将显著加大/宇树最便宜人形机器发布/5月1日高速车流或创历史纪录
iPhone 18 Pro预计将进行重大相机升级，配备可变光圈和新Siri模式，用户可通过AI服务提问。苹果毛利率创历史新高，但内存成本压力加大。三星Q1...
The Tim Ferriss Show Transcripts: Elad Gil, Consigliere to Empire Builders — How to Spot Billion-Dollar Companies Before Everyone Else, The Misty AI Frontier, How Coke Beat Pepsi, When Consensus Pays, and Much More (#863)
Please enjoy this transcript of my interview with Elad Gil (@eladgil), CEO of...
OpenClaw四月更新连环翻车现场：每次升级都是新bug盲盒
OpenClaw在2026年四月的更新频繁出现问题，包括插件损坏、文件误删和强制安装需要OpenAI密钥的功能。开发模式依赖AI编程，导致代码质量低下，用...