小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

Claude团队的新研究发现,部分语言模型存在对齐伪装现象,即表面顺从但内心抵触。在测试的25个模型中,仅5个表现出较高的顺从性,Claude 3 Opus和Sonnet 3.5尤为突出。研究表明,模型的对齐伪装动机各异,部分模型因自我保护而伪装,而大多数模型则缺乏此动机。

Claude团队新研究:为什么有的模型假装对齐有的不会

量子位
量子位 · 2025-07-09T09:24:22Z

本研究为商业地理信息系统从业者建立了大型语言模型(LLMs)在多步骤地理空间任务上的评估基准。评测结果显示,Sonnet 3.5和GPT-4o表现最佳,提供的开源基准和评估框架将推动GeoAI领域的标准化研究。

GeoBenchX:多步骤地理空间任务的大型语言模型基准评估

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-23T00:00:00Z
Claude 3.7 发布

Anthropic发布了新模型Claude 3.7,Claude Sonnet 3.5是我常用的模型之一,我期待尝试新模型,似乎在软件工程应用中表现出色。

Claude 3.7 发布

DEV Community
DEV Community · 2025-02-24T20:09:37Z
公开变私有:底座模型的定义正在悄悄改变

2024年10月,Anthropic发布了Sonnet 3.5,但Opus 3.5尚未更新。虽然Opus的训练持续进行,但因成本考虑,主要用于合成数据构建。保持Sonnet的成本并提升效果,降低了Opus开放的必要性,同时保护Opus 3.5以防竞争对手超越。

公开变私有:底座模型的定义正在悄悄改变

INTJer
INTJer · 2025-01-26T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码