小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
中国DeepSeek预览新一代AI模型,距震撼美国竞争对手已一年

中国AI公司DeepSeek发布了其下一代AI模型V4,声称该模型在编码能力上有显著提升,并与美国领先系统竞争,兼容华为技术,标志着中国芯片产业的重要进步。

中国DeepSeek预览新一代AI模型,距震撼美国竞争对手已一年

The Verge
The Verge · 2026-04-24T09:45:30Z
OpenAI推出的新$100/月计划,旨在帮助开发者突破Codex(和Claude Code)的使用限制

OpenAI推出了新的$100/月的ChatGPT Pro计划,专为Codex用户设计,提供比$20/月的Plus计划多5倍的Codex使用量。该计划还包括对Pro模型和深度研究能力的访问,以及早期实验功能的使用权。与Anthropic的类似计划相比,OpenAI的Codex在付费层级中提供更高的编码能力。

OpenAI推出的新$100/月计划,旨在帮助开发者突破Codex(和Claude Code)的使用限制

The New Stack
The New Stack · 2026-04-09T18:30:11Z

智谱AI已开源GLM-5.1智能体模型,采用MIT许可证,开发者可通过HF和魔搭平台下载。该模型在编码能力和处理模糊问题上表现优异,支持个人及商业使用。完整部署说明见智谱GitHub。

继续采用MIT许可证:智谱现已开源旗舰级智能体工程模型GLM-5.1

蓝点网
蓝点网 · 2026-04-08T05:30:12Z
Qwen 3.6 Plus在AI Gateway上

阿里巴巴的Qwen 3.6 Plus已在Vercel AI Gateway上线,增强了编码能力和多模态感知,支持更复杂的任务。使用时需在AI SDK中设置为qwen/qwen3.6-plus。

Qwen 3.6 Plus在AI Gateway上

Vercel News
Vercel News · 2026-04-02T07:00:00Z
通过工程化的Harness改进Deep Agent

我们的Coding Agent在Terminal Bench 2.0中从第30名跃升至第5名,主要通过优化harness实现。该项目聚焦系统性解决方案,利用Trace分析失败模式,提升模型性能。通过调整系统提示词、工具和中间件,优化了agent的编码能力,最终得分达到66.5%。

通过工程化的Harness改进Deep Agent

Teach Talk
Teach Talk · 2026-03-16T06:13:07Z
AI代理能否构建真实的Stripe集成?我们开发了一个基准来验证这一点

研究表明,尽管先进的AI模型在编码能力上有所提升,但在完全自主管理软件工程项目方面仍存在差距。我们开发了Stripe集成基准,以评估AI代理在构建完整Stripe集成中的表现。结果显示,模型在处理后端和全栈任务时表现出色,但在模糊任务中仍有困难。通过这些基准,我们希望提高AI在Stripe集成中的准确性和可靠性。

AI代理能否构建真实的Stripe集成?我们开发了一个基准来验证这一点

Stripe Blog
Stripe Blog · 2026-03-02T00:00:00Z
GPT 5.3 Codex现已上线AI Gateway

GPT-5.3 Codex已在AI Gateway上线,结合了GPT-5.2的编码能力和推理深度,速度提升25%。该模型适用于软件生命周期的各个阶段,支持多步骤执行和上下文控制,特别适合网页开发。使用时需设置为openai/gpt-5.3-codex。

GPT 5.3 Codex现已上线AI Gateway

Vercel News
Vercel News · 2026-02-24T13:00:00Z
Kimi K2.5已在AI Gateway上线

Kimi K2.5是Moonshot AI最新的智能模型,支持无账户访问,具备强大的编码和视觉理解能力,能够创建动态用户界面。使用时需在AI SDK中设置为moonshotai/kimi-k2.5,AI Gateway提供统一API,支持跟踪和性能优化。

Kimi K2.5已在AI Gateway上线

Vercel News
Vercel News · 2026-01-26T13:00:00Z

DeepSeek V4预计春节前发布,专注编码能力,测试结果显示超越现有模型,在超长代码处理和数据理解上有显著突破,生成答案逻辑更清晰,推理能力增强。

DeepSeek V4爆料:春节档GPT/Claude编程危

量子位
量子位 · 2026-01-10T01:27:28Z
GLM-4.7 可以平替 Claude Code 的国产编码大模型

GLM-4.7是智谱的最新旗舰模型,增强了编码能力和任务规划,支持多种思考模式和工具调用,适用于Agentic Coding和多模态交互,提升编程和视觉效果,生成高质量内容。

GLM-4.7 可以平替 Claude Code 的国产编码大模型

文武科技柜
文武科技柜 · 2026-01-01T13:08:40Z
GLM-4.7上线并开源:更强的编码

智谱官微宣布GLM-4.7模型上线并开源,增强了编码、推理和工具协同能力,表现优于前版本。该模型在多项基准测试中领先,支持复杂任务的统一规划与协作,提升了生成质量和用户体验。

GLM-4.7上线并开源:更强的编码

实时互动网
实时互动网 · 2025-12-23T01:19:15Z

智谱AI推出开源编程大模型GLM-4.7,显著提升编码、推理和工具使用能力,超越GPT-5.1。该模型在复杂任务中表现优异,支持多种思考模式,提升用户体验。GLM-4.7是智谱IPO前的重要更新。

智谱IPO敲钟前,连夜把开源编程大模型SOTA了

量子位
量子位 · 2025-12-23T00:28:29Z
好奇心周刊第23期: Claude Code 氛围编程初体验

本文介绍了Claude Code的使用方法,包括安装、登录、创建文档网站及调试过程。作者成功生成网站代码并解决技术问题,最终构建了文档网站。与其他工具相比,Claude Code在编码能力和工程实践方面表现优异,同时提到CLAUDE.md文件作为记忆管理工具的作用。

好奇心周刊第23期: Claude Code 氛围编程初体验

胡涂说
胡涂说 · 2025-12-21T00:00:00Z

Gemini 3 Flash是最新的AI模型,具备高效的多模态和编码能力,成本仅为3 Pro的四分之一。它在多个基准测试中表现优异,速度更快,适合开发者和企业,支持智能编码、游戏开发和文档分析等应用。

与Gemini 3 Flash共建,前沿智能助力您的发展

The Keyword
The Keyword · 2025-12-17T16:00:00Z
开始使用Claude代理SDK

Claude Agent SDK 允许开发者创建可编程代理应用,简化任务自动化,支持多工具CLI管理工作流,具备调试和代码生成等功能。基于Claude Sonnet 4.5,适合希望提高工作效率的专业人士。

开始使用Claude代理SDK

KDnuggets
KDnuggets · 2025-11-28T15:00:42Z
Anthropic最新Claude Opus 4.5大模型上市,API价格大降2/3

Anthropic发布的Claude Opus 4.5具备更强的编码和计算能力,API价格显著降低。该模型在多项任务中表现优异,能够有效处理复杂问题,提升安全性和智能性。新功能包括上下文管理和计划模式,支持更高效的多Agent系统。

Anthropic最新Claude Opus 4.5大模型上市,API价格大降2/3

TechWeb 全站精华
TechWeb 全站精华 · 2025-11-25T03:55:24Z

Claude Opus 4.5发布,编码与计算能力显著提升,能独立处理复杂任务,超越前代Sonnet。在工程任务测试中得分超过所有人类,展现出强大的理解力和解决问题的能力。开发者平台及应用升级,支持更高效的任务处理与多智能体系统管理。

Claude Opus 4.5发布!2小时工程测试超人类,前代Sonnet搞不定的活它轻松拿捏

量子位
量子位 · 2025-11-25T01:30:58Z
CodeClash通过多轮编码比赛评估大型语言模型(LLMs)

斯坦福、普林斯顿和康奈尔的研究人员开发了CodeClash基准,以评估大型语言模型(LLMs)的编码能力。该基准通过多轮比赛测试LLMs实现高层目标的能力,模拟开发周期的迭代过程。研究团队进行了1680场比赛,发现没有单一模型在所有领域中表现最佳,GPT 5在分析其他LLMs生成的代码时表现优异。未来研究将关注更大代码库和多重竞争目标。

CodeClash通过多轮编码比赛评估大型语言模型(LLMs)

InfoQ
InfoQ · 2025-11-10T18:00:00Z
Claude「最香」模型发布,速度翻倍价格大砍,编程能力直逼 GPT-5

Anthropic 发布的 Claude Haiku 4.5 性能接近 Sonnet 4,但价格仅为其三分之一,速度提升两倍。Haiku 4.5 在编码能力测试中表现优异,适合实时任务,性价比高,值得开发者尝试。尽管数学能力稍显不足。

Claude「最香」模型发布,速度翻倍价格大砍,编程能力直逼 GPT-5

爱范儿
爱范儿 · 2025-10-16T01:39:24Z
智谱旗舰模型GLM-4.6上线,代码能力全面进阶

GLM-4.6是最新的GLM系列模型,编码能力提升27%,支持最长200K上下文,增强推理和搜索能力,适配国产芯片,提供高效编程服务。

智谱旗舰模型GLM-4.6上线,代码能力全面进阶

实时互动网
实时互动网 · 2025-09-30T07:02:13Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码