小红花·文摘

谷歌Gemini 3.5 Pro太菜：被美国政府拦截不让在美国发布

极道 ·

GPT-5.5代码能力跃迁解析：防御戒备切换为高密度可靠执行

极道 ·

单Agent时代结束，AI们开始组团上班

量子位 ·

智谱AI于4月8日发布了开源旗舰模型GLM-5.1，该模型具备长程任务能力，能够独立工作超过八小时，并在专业代码能力测试中超越GPT-5.4。该模型已在GitHub等平台开源。

派早报：智谱发布旗舰模型 GLM-5.1、索尼推出 Playerbase 计划等

少数派 ·

小米神操作！认领榜一神秘模型Hunter Alpha，龙虾之父都忍不住打听

量子位 ·

在Antigravity中对比体验Claude Sonnet 4.5模型

Nicksxs's Blog ·

新版DeepSeek-R1模型上线，实测用它做一个端午节赛龙舟小游戏

TechWeb 全站精华 ·

Llama 4发布后36小时内收到大量差评，主要集中在代码能力和长文写作方面。匿名员工透露拒绝署名技术报告，Meta研究主管在发布前离职，内部情况堪忧。测试结果显示Llama 4在多个基准测试中表现不佳，出现内容重复，疑似因版权诉讼影响数据使用。

Llama 4发布36小时差评如潮！匿名员工爆料拒绝署名技术报告

量子位 ·

DeepSeek V3深夜低调升级，代码进化令人震惊，网友实测可媲美Claude 3.5/3.7 Sonnet

机器之心 ·

本研究提出了新的基准，评估合成验证方法的影响，发现现代推理模型在测试用例生成上显著提升，扩大测试用例规模可提高验证准确性，显示合成验证在提升代码能力方面的潜力。

评分验证器：评估代码和推理中的合成验证方法

BriefGPT - AI 论文速递 ·

阿里发布的Qwen2.5-Max模型在多个基准测试中表现优异，超越DeepSeek V3，具备强大的代码能力和多模态功能，用户可轻松开发小游戏。该模型现已上线，欢迎体验。

阿里除夕发布Qwen2.5-Max反超DeepSeek V3，一句话开发小游戏

量子位 ·

前端开发者项目总结课程心得与推荐

我爱自然语言处理 ·

近年来软件测试岗位招聘要求变化，注重实践经验和业务熟悉程度。入门条件要求统招本科学历，即插即用的测试工程师更受欢迎。面试问题注重细节，对实践经验和代码能力有更高要求。企业更注重技术视野和规划能力，但现在生存能力更重要。

聊聊软件测试岗位的招聘现状 - 老_张

老_张 ·

深度求索开源了DeepSeek-Coder-V2模型，是全球首个在代码、数学能力上超越GPT-4-Turbo等的开源代码大模型。DeepSeek-Coder-V2包含236B与16B两种参数规模，支持338种编程语言。SiliconCloud上线了DeepSeek-Coder-V2开源模型，并提供大模型推理加速服务。新用户还送1亿token。

击败GPT4-Turbo，最强开源代码模型DeepSeek-Coder-V2问世

OneFlow深度学习框架 ·

未来的软件可以自动变得更强大，无需人工努力。这种进步增强技术能够提升代码能力，解决升级项目时的困扰。

未来的渐进增强技术

Jim Nielsen’s Blog ·