小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
开源Autoreason:破解智能体越改越蠢的死循环!

Autoreason是一个开源项目,旨在解决AI自我优化中的问题。通过引入对抗机制和盲评投票,该系统避免了模型在修改过程中的偏差,允许“无改动”选项以实现稳定收敛,提升结果质量。实验表明,Autoreason有效减少了模型的幻觉和信息膨胀,提供了适用于不同模型和评估策略的可扩展框架。

开源Autoreason:破解智能体越改越蠢的死循环!

极道
极道 · 2026-04-13T02:36:00Z
如何使用Python和朴素贝叶斯分类器构建垃圾邮件检测器

本文介绍如何从零开始使用朴素贝叶斯算法构建垃圾邮件分类器,包括数据预处理、特征提取和模型训练,最终实现超过97%的准确率。适合初学者,强调文本清理和模型性能评估的重要性。

如何使用Python和朴素贝叶斯分类器构建垃圾邮件检测器

freeCodeCamp.org
freeCodeCamp.org · 2026-03-10T23:27:52Z
我们为何不再评估SWE-bench Verified

自2024年发布以来,SWE-bench Verified被广泛用于评估自主软件工程模型的进展。然而,分析显示其测试存在缺陷,导致模型能力的提升未能真实反映实际开发能力。OpenAI建议停止报告该基准分数,并开发新的评估方法。

我们为何不再评估SWE-bench Verified

OpenAI
OpenAI · 2026-02-23T11:00:00Z
演讲:构建大规模现实应用的嵌入模型

嵌入模型通过将输入(如文本或图像)转换为向量,实现相似性检索和个性化推荐,广泛应用于搜索引擎和推荐系统。训练时采用对比学习,使相似输入的嵌入接近,不同输入的嵌入远离。模型评估关注检索效果,常用自动评分模型处理缺乏标准标签的情况。

演讲:构建大规模现实应用的嵌入模型

InfoQ
InfoQ · 2026-02-13T15:50:00Z
CS231n 讲义 I:图像分类

图像分类任务是将输入图像分配给固定类别,面临视角、尺度、变形和遮挡等挑战。通过数据驱动的方法,积累标记图像的训练数据集,开发学习算法。使用最近邻分类器评估模型准确性,并通过交叉验证调整超参数。

CS231n 讲义 I:图像分类

Louis Aeilot's Blog
Louis Aeilot's Blog · 2026-02-10T00:45:09Z

在人工智能迅速发展的背景下,构建机器学习应用已形成系统化流程。文章梳理了数据准备、模型训练和服务部署的完整生命周期,强调数据质量、模型评估和持续迭代的重要性,以助力开发者高效推进AI项目。

AI模型从数据到服务的全流程详解

dotNET跨平台
dotNET跨平台 · 2026-01-27T04:42:38Z
提升你的机器学习技能:安德鲁·吴课程后的行动指南

在安德鲁·吴的机器学习课程后,提升技能的关键在于重建神经网络的思维模型,理解架构而非仅仅算法,处理真实复杂数据。学习调试和评估模型,掌握数据预处理和实验记录,理解语言模型的基本原理,选择具有挑战性的项目以增强能力。

提升你的机器学习技能:安德鲁·吴课程后的行动指南

MachineLearningMastery.com
MachineLearningMastery.com · 2026-01-26T17:09:50Z
GIE-Bench:面向文本引导图像编辑的基础评估

本文介绍了GIE-Bench,这是一个用于评估文本引导图像编辑模型的新基准。该基准通过功能正确性和图像内容保留两个维度进行评估,包含1000多个高质量编辑示例。研究发现,GPT-Image-1在指令遵循准确性上表现优异,但常常过度修改无关区域,揭示了当前模型行为的权衡。GIE-Bench为更准确的评估提供了可扩展的框架。

GIE-Bench:面向文本引导图像编辑的基础评估

Apple Machine Learning Research
Apple Machine Learning Research · 2025-12-16T00:00:00Z
时间序列中的Transformer与LSTM:哪种效果更好?

本文探讨了使用LSTM和Transformer模型进行单变量时间序列预测。通过分析芝加哥公共交通数据,展示了数据预处理、模型训练和评估的过程。结果表明,两种模型的预测性能相似,Transformer略优。建议尝试不同数据集以观察模型表现的差异。

时间序列中的Transformer与LSTM:哪种效果更好?

MachineLearningMastery.com
MachineLearningMastery.com · 2025-12-15T11:00:36Z

Kaggle Game Arena是一个新的公开AI基准测试平台,允许AI模型在战略游戏中竞争,以评估其能力。该平台通过标准化环境和开放源代码,提供透明的评估方式,展示模型的战略推理和适应能力。未来,Kaggle计划扩展更多挑战,推动AI模型的进步。

重新思考我们如何衡量人工智能的智能

Google DeepMind Blog
Google DeepMind Blog · 2025-10-23T18:52:06Z
NeurIPS 2025丨华中科大等发布OCRBench v2,Gemini获中文榜冠军但分数仅及格

光学字符识别(OCR)技术已从简单识别发展到理解文档结构。随着深度学习的进步,OCR能力在多模态模型中逐渐显现,成为智能任务的基础。华中科技大学等推出的OCRBench v2评测基准涵盖23种任务,评估58个主流模型,发现模型普遍存在“偏科”现象,整体表现尚可,但在细粒度任务上得分较低。开源模型逐渐具备竞争力,榜单将定期更新。

NeurIPS 2025丨华中科大等发布OCRBench v2,Gemini获中文榜冠军但分数仅及格

HyperAI超神经
HyperAI超神经 · 2025-10-14T03:56:39Z

文章探讨了大语言模型(LLM)产生幻觉的原因,指出模型缺乏对自身知识的反思意识,导致输出不准确的信息。作者建议改进模型评估方法,并增强对不确定性的认识,以减少幻觉的发生。

openAI:为什么语言模型会产生幻觉

程序师
程序师 · 2025-09-08T01:45:05Z
7个适合初学者的机器学习项目,周末完成

本文介绍了七个适合初学者的机器学习项目,涵盖预测建模、自然语言处理和计算机视觉等领域,帮助学习数据准备、模型评估和特征工程,提升技能与职业竞争力。

7个适合初学者的机器学习项目,周末完成

KDnuggets
KDnuggets · 2025-08-28T12:00:27Z
游戏作为模型评估:在 Fly.io 上一键部署 AI Town

文章强调模型评估的重要性,建议通过游戏来测试AI模型的表现。游戏能够提供明确的成功信号,评估模型的战略推理和动态适应能力。AI Town项目展示了通过互动模拟人类行为,提供有趣的对话模型评估方式。

游戏作为模型评估:在 Fly.io 上一键部署 AI Town

The Fly Blog
The Fly Blog · 2025-08-11T00:00:00Z
AI代理需要帮助:四种可靠的软件交付方法

本文讨论了2025年旧金山AI工程师博览会上关于软件交付和大语言模型(LLM)的演讲。随着LLM生成代码能力的提升,软件交付的瓶颈愈加明显。文章提出四项原则以确保AI代理在生产中的可靠性:缩小任务范围、为每个代理提供可重复的沙箱、确保透明可观察性,以及定期进行模型评估。这些原则旨在提高工作效率并降低风险。

AI代理需要帮助:四种可靠的软件交付方法

The New Stack
The New Stack · 2025-07-29T17:00:38Z
10个悄然毁掉机器学习项目的致命错误

机器学习项目中常见的致命错误包括:目标不明确、数据质量差、数据预处理不当、选择错误的模型、超参数调优不足、模型评估不完整、缺乏可解释性、部署策略不当、忽视用户反馈和缺乏持续维护。避免这些错误对项目成功至关重要。

10个悄然毁掉机器学习项目的致命错误

MachineLearningMastery.com
MachineLearningMastery.com · 2025-07-23T14:10:24Z
10个必备的机器学习关键术语解析

本文介绍了机器学习的十个关键术语,包括监督学习、无监督学习、强化学习、过拟合与欠拟合、偏差-方差权衡、损失函数、梯度下降、交叉验证、特征工程和模型评估指标。这些概念对于理解机器学习技术及其应用至关重要。

10个必备的机器学习关键术语解析

MachineLearningMastery.com
MachineLearningMastery.com · 2025-06-25T12:00:31Z
使用Apache Spark实现机器学习管道

机器学习管道将数据转化为预测,Apache Spark简化大数据处理。Spark的MLlib库提供变换器和估计器,帮助构建完整的机器学习流程,包括数据加载、清洗、模型设置与训练,以及模型性能评估,从而帮助企业更有效地利用数据做出决策。

使用Apache Spark实现机器学习管道

KDnuggets
KDnuggets · 2025-06-03T12:00:41Z

本文介绍了如何在浏览器中使用TrainXGB在线训练XGBoost模型。通过Haensel提供的真实数据集,用户可以进行数据探索、模型构建、训练和评估,无需安装软件。只需上传数据,选择特征和目标变量,设置模型参数,即可快速完成模型训练和性能评估。TrainXGB简化了机器学习流程,提高了数据科学项目的效率。

在浏览器中使用XGBoost训练模型

KDnuggets
KDnuggets · 2025-05-30T14:00:46Z

本研究提出了MultiTab基准套件,旨在解决现有基准依赖平均指标的问题。通过对196个数据集进行特征分类,评估13种模型,发现模型性能对数据特征敏感,强调基于数据特征的评估对模型改进的重要性。

MultiTab:用于表格领域的多维评估的综合基准套件

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-20T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码