小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
GPT-5.5与DeepSeek V4,AI 竞争进入新格局!

GPT-5.5与DeepSeek V4同时发布,标志着AI竞争的新阶段。GPT-5.5重心在Codex,强调编程能力和文档处理。DeepSeek V4在编程竞赛中表现突出,但整体性能仍与顶尖模型有差距,未能完全超越国际对手。

GPT-5.5与DeepSeek V4,AI 竞争进入新格局!

硕鼠的博客站
硕鼠的博客站 · 2026-04-27T11:18:21Z
关于管理不善的天才假说的小型练习(长链推理中的语言模型)

文章讨论了语言模型(LM)在复杂推理任务中的表现,特别是LongCoT基准测试。尽管最新模型(如GPT-5.2)在某些任务上表现不佳,但通过改进提示和训练,模型性能显著提升。研究表明,模型在处理图结构依赖时存在困难,提示设计对模型表现影响巨大。整体来看,模型能力的理解仍需深入。

关于管理不善的天才假说的小型练习(长链推理中的语言模型)

blank
blank · 2026-04-26T00:00:00Z
SOTA是什么意思?AI、大模型、深度学习中SOTA完全解读

SOTA是“State Of The Art”的缩写,指当前最先进的技术水平。在机器学习和深度学习中,SOTA模型是指在特定任务上表现最佳的模型。理解SOTA有助于识别技术前沿和模型性能。

SOTA是什么意思?AI、大模型、深度学习中SOTA完全解读

人言兑
人言兑 · 2026-04-25T16:06:23Z
Hugging Face 发布 ml-intern:一款可自动化 LLM 训练后工作流程的开源 AI 代理

Hugging Face 发布了开源 AI 代理 ml-intern,旨在自动化大型语言模型的训练后工作流程。该工具能够自主进行文献综述、数据集发现和训练评估,显著提升模型性能。在不到10小时内,ml-intern 将 Qwen3-1.7B 模型的得分从 8.5% 提升至 32%,超越了现有技术。它还采用合成数据生成和 GRPO 等高级训练策略,展现出极高的数据效率。

Hugging Face 发布 ml-intern:一款可自动化 LLM 训练后工作流程的开源 AI 代理

实时互动网
实时互动网 · 2026-04-22T02:34:54Z
大模型架构的下半场

华中科技大学的研究团队提出了Flash Depth Attention和混合深度注意力(MoDA),旨在改善深度学习模型中层间的通信能力。新方法通过引入注意力机制,提升信息流动的质量,有望推动大模型架构的发展,提升模型性能。

大模型架构的下半场

量子位
量子位 · 2026-04-19T10:12:10Z
刚刚,Claude Opus 4.7突然发布:不是最强,但奥特曼又得失眠

Anthropic 最近发布了 Claude Opus 4.7,尽管不是最强模型,但其“靠谱”特性引发关注。新版本在多个基准测试中表现优异,尤其在代码生成和任务韧性方面展现出更高的能力。4.7 能够反驳不合理的方案,并在遇到问题时继续执行任务。

刚刚,Claude Opus 4.7突然发布:不是最强,但奥特曼又得失眠

爱范儿
爱范儿 · 2026-04-16T17:31:24Z
“Claude Code更新废了”!热议Issue:思考深度下降67%,已无法胜任复杂的工程任务

Claude Code更新后思考深度下降67%,导致复杂任务能力不足,用户反馈模型行为异常,频繁出现错误和推理循环。报告指出思考深度削减影响质量,用户中断率激增。团队承认更新影响,并提出改进建议以恢复模型性能。

“Claude Code更新废了”!热议Issue:思考深度下降67%,已无法胜任复杂的工程任务

量子位
量子位 · 2026-04-07T06:13:01Z
大型语言模型的上下文工程指南

本文探讨了上下文工程在大型语言模型中的重要性。研究表明,过多的输入信息会降低模型性能,尤其是当相关信息位于输入中间时。上下文窗口的设计及信息选择与压缩策略至关重要,有效的上下文工程能够提升模型响应质量,避免信息丢失和注意力稀释。

大型语言模型的上下文工程指南

ByteByteGo Newsletter
ByteByteGo Newsletter · 2026-04-06T15:30:52Z
通过工程化的Harness改进Deep Agent

我们的Coding Agent在Terminal Bench 2.0中从第30名跃升至第5名,主要通过优化harness实现。该项目聚焦系统性解决方案,利用Trace分析失败模式,提升模型性能。通过调整系统提示词、工具和中间件,优化了agent的编码能力,最终得分达到66.5%。

通过工程化的Harness改进Deep Agent

Teach Talk
Teach Talk · 2026-03-16T06:13:07Z

阿里巴巴Qwen团队的论文《Gated Attention》提出在Transformer注意力机制中引入门控,以解决训练不稳定、注意力聚焦和长上下文表现不佳的问题。该方法通过选择性过滤信息,提升了模型性能和训练稳定性,已在Qwen3-Next模型中应用,效果显著。

Gated Attention Neurips Best Paper

Micropaper
Micropaper · 2026-02-28T00:00:00Z
提升超参数调优的7个Scikit-learn技巧

本文介绍了七个提升机器学习模型超参数调优能力的Scikit-learn技巧,包括利用领域知识限制搜索空间、使用随机搜索和网格搜索、结合预处理管道与超参数调优、应用交叉验证、优化多个指标以及明智解读结果。通过系统化的方法,可以有效提升模型性能。

提升超参数调优的7个Scikit-learn技巧

KDnuggets
KDnuggets · 2026-01-29T14:37:51Z
逐步构建变压器

经过几个月的学习,我从零开始构建了一个字符级名称生成器。通过逐步添加架构组件,我发现数据处理对模型性能影响最大,深度比宽度更重要。最终模型在20,000步训练后,测试损失降至1.86,显示出显著改进。

逐步构建变压器

Yi's blog
Yi's blog · 2026-01-28T18:00:00Z
提升时间序列模型性能的五种交叉验证方法

本文介绍了五种交叉验证方法,以提升时间序列模型的性能。这些方法包括前向验证以模拟真实部署、比较扩展和滑动窗口以测试记忆深度、检测时间数据泄漏、评估模型在不同状态下的稳健性,以及基于稳定性调整超参数。这些策略有助于提高模型在实际应用中的可靠性,避免过拟合和数据泄漏。

提升时间序列模型性能的五种交叉验证方法

MachineLearningMastery.com
MachineLearningMastery.com · 2026-01-28T11:00:59Z

Apache TVM 更新至 0.21.0 版本,中文文档已同步。新版本引入优化传递管理系统,提升模型性能,支持灵活的优化流水线和调试机制,简化新传递实现,旨在提高可扩展性和用户友好性。

【TVM教程】Pass 基础设施

HyperAI超神经
HyperAI超神经 · 2026-01-27T03:15:52Z
我们在同一数据集上调优了四种分类器:没有一个真正改善

对葡萄牙学生表现数据进行四种分类器的超参数调优实验表明,调优未显著提升模型性能,反而略有下降。这表明默认设置在许多情况下已足够有效,强调了在机器学习中了解何时停止调优的重要性。

我们在同一数据集上调优了四种分类器:没有一个真正改善

KDnuggets
KDnuggets · 2026-01-20T15:00:39Z
超越网格搜索的三种超参数调优技术

本文介绍了三种高级超参数搜索方法:随机搜索、贝叶斯优化和逐步淘汰。这些方法能快速找到最佳模型配置,提升模型性能,其中贝叶斯优化效果最佳,验证准确率达到96%-97%。

超越网格搜索的三种超参数调优技术

KDnuggets
KDnuggets · 2026-01-19T15:00:12Z
避免过拟合、类别不平衡与特征缩放问题:机器学习从业者的笔记本

机器学习面临过拟合、类别不平衡和特征缩放等挑战。过拟合可通过交叉验证检测,增加训练数据可改善模型表现。类别不平衡可通过调整类权重和重采样策略解决。特征缩放确保输入特征对模型训练的贡献均衡。理解这些问题及其解决方案是提升模型性能的关键。

避免过拟合、类别不平衡与特征缩放问题:机器学习从业者的笔记本

KDnuggets
KDnuggets · 2026-01-14T14:56:26Z
5个实用的Python脚本用于有效的特征工程

特征工程可以通过五个Python脚本自动化,提升模型性能。这些脚本包括分类特征编码、数值特征转换、特征交互生成、时间特征提取和特征选择,简化机器学习项目中的复杂工作。

5个实用的Python脚本用于有效的特征工程

KDnuggets
KDnuggets · 2026-01-13T13:00:14Z

CUDA图是提升GPU性能的有效工具,PyTorch提供了torch.cuda.graph和torch.cuda.make_graphed_callables两个API来捕获和重放CUDA图。前者需要手动管理,后者简化了流程,适用于不同场景以提升PyTorch模型性能。

PyTorch CUDA图捕获

Lei Mao's Log Book
Lei Mao's Log Book · 2026-01-12T08:00:00Z

该文章介绍了一个用于分析模型性能的Python程序。程序通过配置参数确定每个引擎步骤处理的请求数量,并计算输出长度,支持将结果导出为CSV或JSON格式,并提供命令行参数以便用户自定义分析过程。

【vLLM 学习】Profiling

HyperAI超神经
HyperAI超神经 · 2025-12-26T10:48:21Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码