小红花·文摘 - 小红花技术领袖俱乐部

实测 GLM-5.2 ：Claude 5 关停后，它真能稳稳接住这波用户

实测 GLM-5.2 ：Claude 5 关停后，它真能稳稳接住这波用户

爱范儿 ·

Gemma 4是谷歌DeepMind最新的开源模型，性能更高且计算成本更低，支持多种设备，适用于内部工具和生产环境。文章介绍了如何安装Ollama和Gemma 4，以及配置Claude Code以实现高效的代码生成和调试。Gemma 4能够处理复杂的编程任务，如代码分析和测试生成，适合日常工程使用。

低成本的本地自主编程：Claude Code + Ollama + Gemma 4

KDnuggets ·

Anthropic推出Claude Mythos/Fable 5，但你最好尽快尝试

Anthropic推出Claude Mythos/Fable 5，但你最好尽快尝试

The New Stack ·

Meta华人实习生搞出超级智能体！自己写代码实现自我进化

量子位 ·

Goose是一个开源AI代理，旨在自动化复杂的编程任务。它可以在本地环境中运行，支持与多种工具和API连接，适合数据科学家进行快速原型开发和自动化数据处理。通过简单指令，Goose能够执行多步骤任务，提高工作效率。

使用Goose进行（免费）自主编码

KDnuggets ·

帮助学生突破瓶颈：基于AI的在线学习提示

帮助学生突破瓶颈：基于AI的在线学习提示

The JetBrains Blog ·

🔥Claude Opus 4与Gemini 2.5 Pro与OpenAI o3编码比较🚀

🔥Claude Opus 4与Gemini 2.5 Pro与OpenAI o3编码比较🚀

DEV Community ·

每周挑战：比较平均数

每周挑战：比较平均数

DEV Community ·

本研究探讨了大语言模型在编程任务中理解代码的鲁棒性。通过五种保持语义的代码变异，评估了多个先进模型对Python程序的理解能力。结果显示，部分模型在61%的情况下基于错误推理做出正确预测，表明其对代码变异的鲁棒性有限，这对大语言模型在编程领域的应用提出了挑战。

How Robust Are Large Language Models in Understanding Code Against Semantics-Preserving Mutations?

BriefGPT - AI 论文速递 ·

清华与通院提出的“绝对零”训练法，通过自我博弈提升大模型的推理能力，无需外部数据。该方法在代码环境中训练，模型在数学推理和编程任务上表现优异，超越传统专家标注样本训练的模型。

清华&通院推出”绝对零”训练法，零外部数据大模型自我博弈解锁推理能力

量子位 ·

本研究提出了一种新方法，通过代码注释提升开发者对大型语言模型的理解，显著提高代码生成的准确性和开发者的信心，编程任务完成速度提升16.7%，成功率提升10.5%。

Enhanced Code Generation Based on Bidirectional Annotation Levels

BriefGPT - AI 论文速递 ·

每周挑战：最大差值

每周挑战：最大差值

DEV Community ·

每周挑战：反转位置

每周挑战：反转位置

DEV Community ·

200B参数击败满血DeepSeek-R1，字节豆包推理模型Seed-Thinking-v1.5要来了

200B参数击败满血DeepSeek-R1，字节豆包推理模型Seed-Thinking-v1.5要来了

机器之心 ·

AI 圈今年最大丑闻曝光！Llama 4 被揭训练作弊，实测惨遭滑铁卢，核心骨干愤然离职

AI 圈今年最大丑闻曝光！Llama 4 被揭训练作弊，实测惨遭滑铁卢，核心骨干愤然离职

爱范儿 ·

Meta Llama 4被疑考试「作弊」：在竞技场刷高分，但实战中频频翻车

Meta Llama 4被疑考试「作弊」：在竞技场刷高分，但实战中频频翻车

机器之心 ·

7B扩散LLM，居然能跟671B的DeepSeek V3掰手腕，扩散vs自回归，谁才是未来？

7B扩散LLM，居然能跟671B的DeepSeek V3掰手腕，扩散vs自回归，谁才是未来？

机器之心 ·

让AI替码农卷复杂任务，贾佳亚团队提出MoTCoder，准确率刷新SOTA

让AI替码农卷复杂任务，贾佳亚团队提出MoTCoder，准确率刷新SOTA

机器之心 ·

PWC 312 随机时间挑战

PWC 312 随机时间挑战

DEV Community ·

深夜重磅！全球首个混合推理模型发布，Claude 能「思考」了，实测发现这些细节

深夜重磅！全球首个混合推理模型发布，Claude 能「思考」了，实测发现这些细节

爱范儿 ·