小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
Meta华人实习生搞出超级智能体!自己写代码实现自我进化

Meta研究团队推出了新一代超级智能体——达尔文哥德尔机(DGM),结合了哥德尔机与开放算法,实现自我迭代与改进。DGM在编程任务中表现出色,但在非编程领域存在局限。实验表明,DGM通过自我修改代码库显著提升性能,展现出强大的自我改进能力。

Meta华人实习生搞出超级智能体!自己写代码实现自我进化

量子位
量子位 · 2026-03-31T04:32:28Z

Goose是一个开源AI代理,旨在自动化复杂的编程任务。它可以在本地环境中运行,支持与多种工具和API连接,适合数据科学家进行快速原型开发和自动化数据处理。通过简单指令,Goose能够执行多步骤任务,提高工作效率。

使用Goose进行(免费)自主编码

KDnuggets
KDnuggets · 2026-03-19T16:00:18Z
帮助学生突破瓶颈:基于AI的在线学习提示

我们的教育研究团队开发了一种基于AI的提示工具,为在线学习中的学生提供个性化反馈,帮助他们逐步解决编程任务。研究表明,结合文本和代码提示能显著提高学习效果,尤其对初学者更有效。

帮助学生突破瓶颈:基于AI的在线学习提示

The JetBrains Blog
The JetBrains Blog · 2025-07-30T10:10:55Z
🔥Claude Opus 4与Gemini 2.5 Pro与OpenAI o3编码比较🚀

Anthropic推出了Claude Opus 4和Claude Sonnet 4两个新AI模型。Claude Opus 4在编码性能上超越Gemini 2.5 Pro和OpenAI o3,得分达到72.5%。该模型能够自主工作七小时,具有200K的上下文窗口,适合编程任务,尤其在复杂项目中表现出色。

🔥Claude Opus 4与Gemini 2.5 Pro与OpenAI o3编码比较🚀

DEV Community
DEV Community · 2025-05-26T16:16:41Z
每周挑战:比较平均数

每周挑战321中,Mohammad S. Anwar提出两个编程任务:任务1计算去掉最大最小值后的不同平均数,使用Python的Decimal模块处理非整数;任务2比较两个字符串,处理#作为退格符。两者均提供Python和Perl的解决方案。

每周挑战:比较平均数

DEV Community
DEV Community · 2025-05-18T12:06:25Z

本研究探讨了大语言模型在编程任务中理解代码的鲁棒性。通过五种保持语义的代码变异,评估了多个先进模型对Python程序的理解能力。结果显示,部分模型在61%的情况下基于错误推理做出正确预测,表明其对代码变异的鲁棒性有限,这对大语言模型在编程领域的应用提出了挑战。

How Robust Are Large Language Models in Understanding Code Against Semantics-Preserving Mutations?

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-15T00:00:00Z

清华与通院提出的“绝对零”训练法,通过自我博弈提升大模型的推理能力,无需外部数据。该方法在代码环境中训练,模型在数学推理和编程任务上表现优异,超越传统专家标注样本训练的模型。

清华&通院推出”绝对零”训练法,零外部数据大模型自我博弈解锁推理能力

量子位
量子位 · 2025-05-12T09:02:56Z

本研究提出了一种新方法,通过代码注释提升开发者对大型语言模型的理解,显著提高代码生成的准确性和开发者的信心,编程任务完成速度提升16.7%,成功率提升10.5%。

Enhanced Code Generation Based on Bidirectional Annotation Levels

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-12T00:00:00Z
每周挑战:最大差值

在每周挑战320中,Mohammad S. Anwar提出了两个编程任务,作者使用Python和Perl解决。第一个任务是计算正负整数的最大数量,第二个任务是计算正整数数组中数字和与元素和的绝对差。作者分享了自己的解决方案和测试过程。

每周挑战:最大差值

DEV Community
DEV Community · 2025-05-11T01:30:20Z
每周挑战:反转位置

每周挑战318中,Mohammad S. Anwar发布了两个编程任务:任务1要求使用正则表达式找出字符串中连续三个或更多相同字母的位置;任务2检查两个整数数组是否可以通过反转一个连续子数组使其相等,需验证数组长度、元素及总和相同。

每周挑战:反转位置

DEV Community
DEV Community · 2025-04-27T12:31:42Z
200B参数击败满血DeepSeek-R1,字节豆包推理模型Seed-Thinking-v1.5要来了

字节跳动推出了新推理模型Seed-Thinking-v1.5,参数总量200B,激活20B,性能超越671B的DeepSeek-R1。该模型在多个基准测试中表现优异,特别是在STEM领域和编程任务中展现出强大的推理能力。团队还开发了新的评估基准,未来将向公众开放。

200B参数击败满血DeepSeek-R1,字节豆包推理模型Seed-Thinking-v1.5要来了

机器之心
机器之心 · 2025-04-11T03:21:01Z
AI 圈今年最大丑闻曝光!Llama 4 被揭训练作弊,实测惨遭滑铁卢,核心骨干愤然离职

Meta发布的Llama 4引发失望,网友认为其性能低于预期,尤其在编程任务中表现不佳。尽管参数较高,但实测结果显示其能力不及竞争对手,甚至被指控在基准测试中存在“作弊”。Meta的开源优势减弱,Gemini和DeepSeek等模型表现更佳。

AI 圈今年最大丑闻曝光!Llama 4 被揭训练作弊,实测惨遭滑铁卢,核心骨干愤然离职

爱范儿
爱范儿 · 2025-04-07T10:17:00Z
Meta Llama 4被疑考试「作弊」:在竞技场刷高分,但实战中频频翻车

Meta 最近推出的 Llama 4 系列 AI 模型在编码能力上受到用户批评,实际表现不如其他模型,尽管官方排名较高,但在编程任务中的效果不佳,存在误导性。

Meta Llama 4被疑考试「作弊」:在竞技场刷高分,但实战中频频翻车

机器之心
机器之心 · 2025-04-07T05:03:10Z
7B扩散LLM,居然能跟671B的DeepSeek V3掰手腕,扩散vs自回归,谁才是未来?

香港大学与华为诺亚方舟实验室推出了扩散推理模型Dream 7B,突破了自回归与扩散模型在生成任务中的界限。该模型在通用能力、数学推理和编程任务上表现优异,展示了扩散建模在自然语言处理中的潜力。研究团队将发布模型权重,并将继续优化扩散语言模型。

7B扩散LLM,居然能跟671B的DeepSeek V3掰手腕,扩散vs自回归,谁才是未来?

机器之心
机器之心 · 2025-04-05T09:21:06Z
让AI替码农卷复杂任务,贾佳亚团队提出MoTCoder,准确率刷新SOTA

李靖瑶等提出的MoTCoder通过模块化思维指令微调,显著提高了大语言模型在复杂编程任务中的准确性和可维护性。实验表明,MoTCoder在APPS和CodeContests基准上超越现有模型,生成的代码结构清晰、逻辑简明,适合算法竞赛和企业级开发,推动智能编程进步。

让AI替码农卷复杂任务,贾佳亚团队提出MoTCoder,准确率刷新SOTA

机器之心
机器之心 · 2025-04-03T03:28:42Z
PWC 312 随机时间挑战

每周挑战312包括两个编程任务:任务1计算在圆形打字机上输入字符串的最短时间,任务2统计包含红、蓝、绿三种颜色球的盒子数量。通过字符串处理和数组操作实现解决方案。

PWC 312 随机时间挑战

DEV Community
DEV Community · 2025-03-20T14:47:20Z
深夜重磅!全球首个混合推理模型发布,Claude 能「思考」了,实测发现这些细节

Claude 3.7 Sonnet正式发布,作为最智能的AI模型,具备快速响应和深入推理两种模式。新工具Claude Code高效处理编程任务,缩短开发时间,支持多种开发流程,优化安全性和用户体验。

深夜重磅!全球首个混合推理模型发布,Claude 能「思考」了,实测发现这些细节

爱范儿
爱范儿 · 2025-02-24T23:46:03Z
DeepSeek-R1:内部解析简易化 🐋

DeepSeek-R1是中国DeepSeek公司开发的开源推理模型,能够进行逻辑推理和实时决策。与传统语言模型不同,它展示推理过程,便于理解和验证。该模型通过强化学习自主发现推理模式,具备自我验证和多步骤规划能力,训练成本低。在数学推理和编程任务上表现接近人类专家水平。

DeepSeek-R1:内部解析简易化 🐋

DEV Community
DEV Community · 2025-01-26T09:05:26Z
如何在Visual Studio Code中免费使用DeepSeek R1,配合Cline或Roo Code

DeepSeek R1是一款免费的开源人工智能,性能优于GPT-4,适合逻辑和编程任务。可集成于Visual Studio Code,支持多种参数版本,用户可根据硬件选择合适模型。运行时无需费用,保护隐私。

如何在Visual Studio Code中免费使用DeepSeek R1,配合Cline或Roo Code

DEV Community
DEV Community · 2025-01-24T19:42:00Z
字典教程

本文介绍了五个Python编程任务,包括计算总分、找出最高分、统计字母频率、统计单词频率和根据值排序字典,并通过示例代码展示了实现方法。

字典教程

DEV Community
DEV Community · 2025-01-23T19:38:28Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码