小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

文章讨论了通过优化目标函数(LFD)高效开发产品的方法。作者指出传统目标设定方法的缺陷,强调盲测和迭代优化对提升模型性能的重要性。经过多轮测试,agent在不作弊的情况下显著提高了结果准确性。此外,信息不对称被认为是构建竞争优势的关键,建议开发者关注真实评估集和用户反馈,以加速产品迭代。

【译文】/goal + 损失函数:如何用一条指令在 30 小时内蒸馏一个产品

电波障害
电波障害 · 2026-06-11T04:00:00Z
别光给Agent加Tool了,它根本选不明白!复旦×通义提出全新CUA训练范式

复旦大学与通义实验室联合提出ToolCUA,旨在优化计算机使用代理(CUA)在GUI与工具调用之间的选择。研究表明,直接连接工具未能提升模型性能,反而导致准确率下降。ToolCUA通过生成混合轨迹数据,帮助模型学习何时使用GUI或工具,从而提高任务执行效率。在OSWorld-MCP上的评测结果显示,ToolCUA取得46.85%的准确率,显著优于其他模型,展示了其在复杂任务中的有效性和灵活性。

别光给Agent加Tool了,它根本选不明白!复旦×通义提出全新CUA训练范式

量子位
量子位 · 2026-05-31T14:25:18Z

后训练是一个复杂的数据流水线,包含多个阶段,如SFT、奖励模型和策略优化。每个阶段旨在将预训练模型转变为更符合人类指令和偏好的模型。SFT主要调整回答格式,奖励模型提供训练信号,策略优化提升生成候选的能力。评测确保模型的安全性和准确性,整体流程强调数据回流和持续优化,以提升模型性能和可靠性。

【强化学习与大模型后训练】06|后训练全景:SFT → RM → RLHF → 评测

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-05-29T00:00:00Z
Claude Code 怎样快速消耗 token

文章讨论了如何高效消耗AI模型Claude Code的token。作者建议通过打开Claude Code窗口,逐一总结项目源码,并生成架构分析报告,以此提高token的使用效率。

Claude Code 怎样快速消耗 token

iMaeGoo's Blog
iMaeGoo's Blog · 2026-05-21T10:30:00Z
信通院&清华提出FedRE:用「纠缠」搞定联邦学习三难困境 | CVPR 26

联邦学习中,平衡模型性能、数据隐私和通信开销是一大挑战。清华大学等研究团队提出了基于表征纠缠的框架FedRE,能够有效保护隐私并降低通信成本,同时适应模型异构场景。FedRE通过融合不同类别的表征生成纠缠表征,上传至服务器训练全局分类器,从而显著提升模型性能和隐私保护能力。

信通院&清华提出FedRE:用「纠缠」搞定联邦学习三难困境 | CVPR 26

量子位
量子位 · 2026-05-18T06:44:04Z
2.7%的裂缝:全球AI竞赛进入非对称博弈时代

斯坦福大学的《人工智能指数报告》显示,美国与中国在AI模型性能的差距缩小至2.7%。尽管美国在投资和数据中心数量上占优,中国通过效率优化和丰富的应用场景实现了快速追赶。中国在工业机器人和AI论文引用方面领先,开源模型也受到全球开发者的青睐。未来AI竞争将侧重于生态体系的构建与应用场景的拓展。

2.7%的裂缝:全球AI竞赛进入非对称博弈时代

TechWeb 全站精华
TechWeb 全站精华 · 2026-04-29T02:38:56Z
GPT-5.5与DeepSeek V4,AI 竞争进入新格局!

GPT-5.5与DeepSeek V4同时发布,标志着AI竞争的新阶段。GPT-5.5重心在Codex,强调编程能力和文档处理。DeepSeek V4在编程竞赛中表现突出,但整体性能仍与顶尖模型有差距,未能完全超越国际对手。

GPT-5.5与DeepSeek V4,AI 竞争进入新格局!

硕鼠的博客站
硕鼠的博客站 · 2026-04-27T11:18:21Z
关于管理不善的天才假说的小型练习(长链推理中的语言模型)

文章讨论了语言模型(LM)在复杂推理任务中的表现,特别是LongCoT基准测试。尽管最新模型(如GPT-5.2)在某些任务上表现不佳,但通过改进提示和训练,模型性能显著提升。研究表明,模型在处理图结构依赖时存在困难,提示设计对模型表现影响巨大。整体来看,模型能力的理解仍需深入。

关于管理不善的天才假说的小型练习(长链推理中的语言模型)

blank
blank · 2026-04-26T00:00:00Z
SOTA是什么意思?AI、大模型、深度学习中SOTA完全解读

SOTA是“State Of The Art”的缩写,指当前最先进的技术水平。在机器学习和深度学习中,SOTA模型是指在特定任务上表现最佳的模型。理解SOTA有助于识别技术前沿和模型性能。

SOTA是什么意思?AI、大模型、深度学习中SOTA完全解读

人言兑
人言兑 · 2026-04-25T16:06:23Z
Hugging Face 发布 ml-intern:一款可自动化 LLM 训练后工作流程的开源 AI 代理

Hugging Face 发布了开源 AI 代理 ml-intern,旨在自动化大型语言模型的训练后工作流程。该工具能够自主进行文献综述、数据集发现和训练评估,显著提升模型性能。在不到10小时内,ml-intern 将 Qwen3-1.7B 模型的得分从 8.5% 提升至 32%,超越了现有技术。它还采用合成数据生成和 GRPO 等高级训练策略,展现出极高的数据效率。

Hugging Face 发布 ml-intern:一款可自动化 LLM 训练后工作流程的开源 AI 代理

实时互动网
实时互动网 · 2026-04-22T02:34:54Z
大模型架构的下半场

华中科技大学的研究团队提出了Flash Depth Attention和混合深度注意力(MoDA),旨在改善深度学习模型中层间的通信能力。新方法通过引入注意力机制,提升信息流动的质量,有望推动大模型架构的发展,提升模型性能。

大模型架构的下半场

量子位
量子位 · 2026-04-19T10:12:10Z
刚刚,Claude Opus 4.7突然发布:不是最强,但奥特曼又得失眠

Anthropic 最近发布了 Claude Opus 4.7,尽管不是最强模型,但其“靠谱”特性引发关注。新版本在多个基准测试中表现优异,尤其在代码生成和任务韧性方面展现出更高的能力。4.7 能够反驳不合理的方案,并在遇到问题时继续执行任务。

刚刚,Claude Opus 4.7突然发布:不是最强,但奥特曼又得失眠

爱范儿
爱范儿 · 2026-04-16T17:31:24Z
“Claude Code更新废了”!热议Issue:思考深度下降67%,已无法胜任复杂的工程任务

Claude Code更新后思考深度下降67%,导致复杂任务能力不足,用户反馈模型行为异常,频繁出现错误和推理循环。报告指出思考深度削减影响质量,用户中断率激增。团队承认更新影响,并提出改进建议以恢复模型性能。

“Claude Code更新废了”!热议Issue:思考深度下降67%,已无法胜任复杂的工程任务

量子位
量子位 · 2026-04-07T06:13:01Z
大型语言模型的上下文工程指南

本文探讨了上下文工程在大型语言模型中的重要性。研究表明,过多的输入信息会降低模型性能,尤其是当相关信息位于输入中间时。上下文窗口的设计及信息选择与压缩策略至关重要,有效的上下文工程能够提升模型响应质量,避免信息丢失和注意力稀释。

大型语言模型的上下文工程指南

ByteByteGo Newsletter
ByteByteGo Newsletter · 2026-04-06T15:30:52Z
通过工程化的Harness改进Deep Agent

我们的Coding Agent在Terminal Bench 2.0中从第30名跃升至第5名,主要通过优化harness实现。该项目聚焦系统性解决方案,利用Trace分析失败模式,提升模型性能。通过调整系统提示词、工具和中间件,优化了agent的编码能力,最终得分达到66.5%。

通过工程化的Harness改进Deep Agent

Teach Talk
Teach Talk · 2026-03-16T06:13:07Z

阿里巴巴Qwen团队的论文《Gated Attention》提出在Transformer注意力机制中引入门控,以解决训练不稳定、注意力聚焦和长上下文表现不佳的问题。该方法通过选择性过滤信息,提升了模型性能和训练稳定性,已在Qwen3-Next模型中应用,效果显著。

Gated Attention Neurips Best Paper

Micropaper
Micropaper · 2026-02-28T00:00:00Z
提升超参数调优的7个Scikit-learn技巧

本文介绍了七个提升机器学习模型超参数调优能力的Scikit-learn技巧,包括利用领域知识限制搜索空间、使用随机搜索和网格搜索、结合预处理管道与超参数调优、应用交叉验证、优化多个指标以及明智解读结果。通过系统化的方法,可以有效提升模型性能。

提升超参数调优的7个Scikit-learn技巧

KDnuggets
KDnuggets · 2026-01-29T14:37:51Z
逐步构建变压器

经过几个月的学习,我从零开始构建了一个字符级名称生成器。通过逐步添加架构组件,我发现数据处理对模型性能影响最大,深度比宽度更重要。最终模型在20,000步训练后,测试损失降至1.86,显示出显著改进。

逐步构建变压器

Yi's blog
Yi's blog · 2026-01-28T18:00:00Z
提升时间序列模型性能的五种交叉验证方法

本文介绍了五种交叉验证方法,以提升时间序列模型的性能。这些方法包括前向验证以模拟真实部署、比较扩展和滑动窗口以测试记忆深度、检测时间数据泄漏、评估模型在不同状态下的稳健性,以及基于稳定性调整超参数。这些策略有助于提高模型在实际应用中的可靠性,避免过拟合和数据泄漏。

提升时间序列模型性能的五种交叉验证方法

MachineLearningMastery.com
MachineLearningMastery.com · 2026-01-28T11:00:59Z

Apache TVM 更新至 0.21.0 版本,中文文档已同步。新版本引入优化传递管理系统,提升模型性能,支持灵活的优化流水线和调试机制,简化新传递实现,旨在提高可扩展性和用户友好性。

【TVM教程】Pass 基础设施

HyperAI超神经
HyperAI超神经 · 2026-01-27T03:15:52Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码