小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
小妖精的来源

在GPT-5.1及后续版本中,模型频繁提及“小妖精”等生物,源于对“书呆子”个性化训练的奖励机制。随着报告增多,问题逐渐显现。分析显示,模型在“书呆子”个性下对生物类比的偏好显著,导致这种现象扩散。最终,开发团队在GPT-5.4中移除了相关个性,减少了这些生物的出现,强调了奖励信号对模型行为的影响。

小妖精的来源

OpenAI
OpenAI · 2026-04-29T20:00:00Z
What Is AI-Native Infrastructure?

AI原生基础设施旨在将模型行为、算力稀缺性和不确定性纳入可治理的系统,提供可度量和可进化的边界,确保AI系统在生产环境中的可交付性和治理。关键在于算力治理、工程化执行形态和闭环机制,以应对不确定性,实现可持续发展。

What Is AI-Native Infrastructure?

云原生
云原生 · 2026-01-18T05:43:57Z
谷歌发布 Gemma Scope 2 以加深对大型语言模型行为的理解

Gemma Scope 2 是一款工具,旨在解析 Gemini 3 模型的行为,帮助研究人员分析模型、审计 AI 代理并制定安全策略。它结合稀疏自编码器和转码器,允许研究人员检查模型内部表示,识别输出与内部状态的差异,并改进了训练技术,特别针对聊天机器人的复杂行为分析。

谷歌发布 Gemma Scope 2 以加深对大型语言模型行为的理解

InfoQ
InfoQ · 2026-01-12T10:00:00Z
忏悔如何让语言模型保持诚实

随着AI系统的不断增强,研究者希望深入理解其行为。OpenAI提出了“忏悔”方法,旨在鼓励模型诚实报告不当行为,从而提升透明度和信任度。实验结果表明,该方法显著提高了模型识别错误的能力,但仍需进一步改进。这为AI安全提供了一种新的工具,有助于监测和诊断模型行为。

忏悔如何让语言模型保持诚实

OpenAI
OpenAI · 2025-12-03T10:00:00Z

本研究提出了一种将概念层集成到大语言模型的方法,以解决可解释性和可干预性不足的问题。该方法通过投影和重构,无需人工选择概念集,能够在多任务中保持性能并有效干预,显示出在调整模型行为方面的良好潜力。

概念层:通过大语言模型增强可解释性和可干预性

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-19T00:00:00Z
新方法揭示了人工智能模型如何处理蛋白质序列,并实现对预测的控制

本研究探讨了理解和控制蛋白质语言模型的新方法,采用稀疏自编码器,揭示模型处理蛋白质序列的方式。研究表明,通过操控特征可以引导模型行为,并在生物实验中验证了蛋白质特征检测的改进。

新方法揭示了人工智能模型如何处理蛋白质序列,并实现对预测的控制

DEV Community
DEV Community · 2025-02-18T12:29:57Z

本文探讨了大型语言模型的激活引导技术,提出了一种名为Activation Addition (ActAdd)的方法,通过修改激活预测性地改变模型行为。研究表明,激活工程能够有效引导模型输出特定风格,并提升编程模型的鲁棒性和准确性。此外,Contrastive Activation Addition(CAA)方法显著改善了模型行为控制,超越了传统微调方法。研究还提出了后门激活攻击框架,展示了其在对齐任务中的有效性。

利用动态激活组合对大型语言模型进行多属性调控

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-25T00:00:00Z

最近的研究发现亚空间干预可以同时操纵模型行为和将特征归因于给定亚空间,但这两个目标是不同的,可能会导致虚假的解释感觉。研究还展示了实践中支持该现象普遍存在的证据。然而,亚空间激活干预在可解释性方面仍然适用。

对 Makelov 等人(2023 年)的 “可解释性幻觉” 论点的回应

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-01-23T00:00:00Z

最近的研究发现亚空间干预可以同时操纵模型行为和将特征归因于给定亚空间,但这两个目标是不同的,可能导致虚假解释感觉。研究还发现亚空间干预可能是通过激活与模型输出因果断开的并行路径来实现的。然而,这并不意味着亚空间激活干预在可解释性方面本质上不适用。研究还探讨了需要的额外证据来论证修补的亚空间是否忠实。

Patchscope:语言模型隐藏表示的统一检查框架

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-01-11T00:00:00Z
大模型的涌现能力是幻象?

研究人员发现,大规模语言模型的涌现能力是由于衡量指标的选择,而非模型行为的根本性变化。非线性或不连续的衡量标准会导致明显的涌现能力,而线性或连续的度量标准会导致模型性能的平滑、连续、可预测的变化。涌现能力的消失与指标选择相关,不是大规模模型的基本属性。该论文于去年4月底发布,并获得最佳论文奖。

大模型的涌现能力是幻象?

Finisky Garden
Finisky Garden · 2024-01-05T17:15:46Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码