小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
architect-loop:把Claude当建筑师 GPT当工人 仓库即记忆

architect-loop是一个协作框架,将AI模型分为建筑师(Claude Fable)和工人(GPT-5.5 Codex)。通过规格说明、验收标准和代码审查实现多模型团队合作。强调“仓库即记忆”,工人从新文档开始,且无权修改设计要求,以确保代码的可维护性和质量。适合大型项目,不适合小型脚本。

architect-loop:把Claude当建筑师 GPT当工人 仓库即记忆

极道
极道 · 2026-06-14T07:54:00Z
《GPT 图解》笔记:微调与RLHF、总结

本文讨论了微调和人类反馈强化学习(RLHF)在GPT模型训练中的应用。微调通过特定对话数据优化模型,RLHF则通过监督学习和人类偏好评分提升回答质量。作者分享了学习过程中的体会,强调AI辅助学习的高效性,并回顾了从N-Gram到GPT的技术演变。

《GPT 图解》笔记:微调与RLHF、总结

Ying’s Blog
Ying’s Blog · 2026-06-14T06:08:17Z
为什么谷歌Gemma 12B写东西比GPT-5更像真人?小模型的逆袭

谷歌的Gemma模型通过使用Gmail等私有数据进行训练,展现出更自然的对话能力。相比于大型模型,Gemma因参数较少,保留了人类的语言本能,更贴近真实对话。其训练数据来自真实的邮件和文档,使表达更具亲和力。Gemma适合用于写作和聊天,而大型模型更擅长技术任务。选择AI时,应根据需求选择合适的模型。

为什么谷歌Gemma 12B写东西比GPT-5更像真人?小模型的逆袭

极道
极道 · 2026-06-13T22:46:00Z
Claude Fable在一次编码测试中花费9美元,而GPT-5.5则花费1.50美元。模型筛选是新的AI技能。

文章讨论了人工智能(AI)模型的选择和使用策略,强调掌握AI技能的重要性。Anthropic公司因遵循美国政府的出口控制指令,暂时禁用了Fable 5和Mythos 5。使用Fable进行规划和审查,而将实际执行交给成本更低的模型,可以显著提高效率。随着AI模型价格战的加剧,选择合适模型的能力将成为关键。

Claude Fable在一次编码测试中花费9美元,而GPT-5.5则花费1.50美元。模型筛选是新的AI技能。

The New Stack
The New Stack · 2026-06-13T10:31:00Z
《GPT 图解》笔记:GPT-从 Decoder 到自回归文本生成

本文讨论了GPT模型的结构及其自回归文本生成过程。GPT基于Decoder架构,采用贪婪解码和集束搜索策略生成文本。通过右移输入实现自回归,模型将输入和输出视为一个长序列,适用于多种生成任务。GPT的核心在于利用Causal Mask实现并行计算,简化了传统的编码-解码结构。

《GPT 图解》笔记:GPT-从 Decoder 到自回归文本生成

Ying’s Blog
Ying’s Blog · 2026-06-13T06:18:45Z
“智能体最后的考试”,Fable 5竟然不敌GPT 5.5

UC伯克利推出了“智能体最后的考试”基准测试,评估AI Agent在实际工作中的表现。测试结果显示,最强的Claude Fable 5和GPT 5.5在最难档次中均未通过,而GPT 5.5在较低难度中稍胜Fable 5。该测试覆盖55个行业,强调了AI在真实工作中的能力及其局限性。

“智能体最后的考试”,Fable 5竟然不敌GPT 5.5

量子位
量子位 · 2026-06-12T04:13:23Z

OpenAI's GPT-5.5, GPT-5.4, and Codex are now generally available on Amazon Bedrock, one month after OpenAI revised its exclusive Azure arrangement. Pricing matches OpenAI's direct rates with usage...

OpenAI's GPT-5.5 and Codex Reach General Availability on Amazon Bedrock

InfoQ
InfoQ · 2026-06-11T09:24:00Z
GPT-5.6首批实测来了!精准狙击Mythos

Anthropic发布了Claude Fable 5和Mythos 5,给OpenAI带来了压力。GPT-5.6的内部测试正在进行,kindle-alpha被选为发布候选版。尽管前端生成能力有所提升,但网友反馈显示其表现不如预期,可能会被Mythos轻松击败。三家AI公司在6月发布新模型,竞争激烈,GPT-5.6的定价策略将影响其市场表现。

GPT-5.6首批实测来了!精准狙击Mythos

量子位
量子位 · 2026-06-10T06:45:09Z
Notion的GPT-5重构解锁自主AI工作流程

2022年底,Notion重构系统架构,推出Notion 3.0,支持用户指派复杂任务,代理可自主规划和执行。测试GPT-5显示其在多步骤和模糊任务上表现优异,强调系统自主性和清晰性的重要性。

Notion的GPT-5重构解锁自主AI工作流程

OpenAI
OpenAI · 2026-06-09T10:00:00Z
DeepSeek V4 Pro在精度方面胜过 GPT-5.5 Pro

DeepSeek V4 Pro在精度和指令遵循方面优于GPT-5.5 Pro,尤其在复杂任务处理上表现更佳。测试显示,DeepSeek在日志处理和邮件生成等任务中更能准确执行要求,而GPT常常添加多余信息。尽管DeepSeek成本低廉,但推理深度仍不及GPT。社区对评估方法提出质疑,认为样本量小且缺乏科学性。总体来看,DeepSeek提供了“足够好”的性能,但顶尖推理能力仍由GPT和Claude掌握。

DeepSeek V4 Pro在精度方面胜过 GPT-5.5 Pro

极道
极道 · 2026-06-08T12:26:00Z
《GPT 图解》笔记:Transformer

这篇文章介绍了Transformer模型的结构和关键概念。Transformer通过注意力机制替代RNN,解决了序列建模中的上下文依赖问题。引入位置编码使模型能够感知token的位置信息,注意力机制包括自注意力和交叉注意力。编码器和解码器结构相似,但解码器使用因果掩码以确保生成序列的自回归特性。整体上,Transformer实现了高效的并行计算和长距离依赖处理。

《GPT 图解》笔记:Transformer

Ying’s Blog
Ying’s Blog · 2026-06-07T07:18:45Z
开始在 Amazon Bedrock 上使用 OpenAI GPT-5.5、GPT-5.4 模型和 Codex

OpenAI的GPT-5.5和GPT-5.4模型以及Codex已在Amazon Bedrock平台上线。这些模型专注于代码编写和复杂工作流程,支持开发者通过Responses API调用。Codex每周有超过400万开发者使用,优化了开发流程。用户按token付费,无需购买席位许可,模型在美国东部和西部区域可用,用户可通过OpenAI SDK或curl访问。

开始在 Amazon Bedrock 上使用 OpenAI GPT-5.5、GPT-5.4 模型和 Codex

亚马逊AWS官方博客
亚马逊AWS官方博客 · 2026-06-05T04:07:41Z
一个GPT Plus会员的钱,够机器人跑一个月世界模型了

智在无界推出的Being-H-Flash隐式世界模型,月算力成本仅150元,能够在百TOPS级芯片上实现实时运行。该模型通过潜空间推理,降低了计算开销,提升了机器人在动态环境中的预测能力,推动了机器人在生产线上的高效运作和商业化进程。

一个GPT Plus会员的钱,够机器人跑一个月世界模型了

量子位
量子位 · 2026-06-04T03:10:23Z
为GPT-Rosalind引入新功能

GPT-Rosalind系列模型更新,专为生命科学研究设计,提升了药物发现智能和工具使用能力。该模型在生物学、药物化学和基因组学等领域表现出显著提升,通过LifeSciBench基准测试在科学证据处理、分析和优化等任务中表现优异。现已向全球合格组织开放,旨在加速科学发现和药物研发。

为GPT-Rosalind引入新功能

OpenAI
OpenAI · 2026-06-03T13:15:00Z

亚马逊云科技宣布,GPT-5.5、GPT-5.4和Codex已在Amazon Bedrock上线,企业可直接调用这些大模型以支持复杂任务,计费标准与OpenAI一致,无额外费用。Codex可通过多种IDE插件使用,推理计算符合数据合规要求。亚马逊将持续扩展OpenAI的能力。

GPT-5.5、GPT-5.4和Codex已在Amazon Bedrock上正式可用

全球TMT-美通国际
全球TMT-美通国际 · 2026-06-02T06:07:22Z
GPT Realtime 2.0实时语音模型17个创业方向

GPT Realtime 2.0模型实现了边听边思考的实时智能应用,提供了17个创业机会,如实时合同谈判助手、语音控制交易终端和多语种活动主持人。这些应用通过高效的数据处理和实时反馈,提升了工作效率,适合创业者和产品经理使用。

GPT Realtime 2.0实时语音模型17个创业方向

极道
极道 · 2026-06-02T03:35:00Z

DeepSWE测试显示,GPT-5.5在编程能力上超越Claude Opus 4.8,表现出更高的效率和可靠性。新考试更真实,反映了AI在实际工作中的能力,用户普遍认为GPT-5.5更实用。

DeepSWE结果发布:GPT-5.5把Claude Opus 4.8比下去了

极道
极道 · 2026-06-01T02:38:00Z

OpenAI 宣布将逐步弃用使用率低的 o3 和 GPT-4.5 模型,o3 将在 90 天后弃用,GPT-4.5 在 30 天后弃用。新推出的 GPT-5.5 Instant 模型将提供更易读的输出和改善的对话节奏。旧版模型的 Canvas 功能将不再支持,付费用户可在有限时间内继续使用。API 端将继续支持这些模型。

o3和GPT-4.5模型将被陆续从ChatGPT中删除 不过API端继续提供调用

蓝点网
蓝点网 · 2026-05-31T07:07:13Z
为什么GPT-5.4、Claude和Gemini在基本的现实世界事实上无法达成一致

近期研究显示,五种大型语言模型在处理真实世界声明时,67%的情况下存在意见分歧,尤其在判断“真实”与“虚假”时表现不一致。研究强调开发团队需谨慎验证AI生成内容,以避免法律和声誉风险。

为什么GPT-5.4、Claude和Gemini在基本的现实世界事实上无法达成一致

The New Stack
The New Stack · 2026-05-30T13:11:27Z
《GPT 图解》笔记:QKV、多头注意力及掩码

本文探讨了注意力机制中的QKV、多头注意力和掩码。QKV分别代表查询、键和值,通过矩阵变换提取特征。多头注意力将输入分为多个子空间,从不同角度学习特征。掩码用于将不重要的信息权重设为接近“0”,以优化注意力计算。

《GPT 图解》笔记:QKV、多头注意力及掩码

Ying’s Blog
Ying’s Blog · 2026-05-30T01:09:06Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码