小红花·文摘

AI 论文周报丨红队测试语言模型/多视角 3D 点追踪方法/蛋白质表示学习框架/密码学漏洞检测新框架……

HyperAI超神经 ·

MPS 2025.1 发布了！

The JetBrains Blog ·

本文探讨了大型语言模型（LLMs）在逻辑推理和解谜任务中的能力，指出它们在复杂推理方面与人类存在显著差距，尤其在多步骤推理和非单调逻辑上表现不佳，强调需要新的策略和数据集来提升推理能力。

modeLing: 用于测试语言模型语言推理的新颖数据集

BriefGPT - AI 论文速递 ·

这篇论文探讨了大型语言模型在记忆训练数据方面的能力及其隐私和公平性问题。研究发现，模型在表格预测任务中继承社会偏见，并提出通过标签反转等方法减轻偏见。同时，提出了量化模型记忆能力的方法，强调训练者需谨慎处理隐私风险。

大象不会忘记：测试语言模型对表格数据的记忆能力

BriefGPT - AI 论文速递 ·

在野外安全自主性的先决条件是进行安全的测试。我们提出了一个基于互联网的安全自主智能体测试框架，通过上下文敏感的监视器对智能体的行为进行审计，强制实施严格的安全边界来阻止不安全的测试，并将可疑行为进行排名和记录以供人工审查。我们设计了一个灵活的基础安全监视器来监控现有 LLM 智能体，并使用对抗性模拟智能体来测试其识别和停止不安全情况的能力。然后，我们将安全监视器应用于 AutoGPT...

在野外安全地测试语言模型代理

BriefGPT - AI 论文速递 ·

本研究使用真实Reddit个人资料构建数据集，证明了预训练语言模型（LLM）能够推断出个人隐私信息，包括地点、收入和性别等。研究还探讨了通过聊天机器人提取个人信息的新威胁，并证明了文本匿名化和模型对齐等缓解措施对保护用户隐私无效。

LLM 是否能保守秘密？通过上下文完整理论测试语言模型的隐私影响

BriefGPT - AI 论文速递 ·

本研究测试了几种大型语言模型（LLMs）在解决认知科学文献中的演绎推理问题方面的能力。结果表明，LLMs在传统形式上解决这些问题的能力有限，且具有推理偏见。

现象异常而令人迷惑：用假设修正测试语言模型的归纳推理能力

BriefGPT - AI 论文速递 ·