小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
Langchain 团队如何评估与优化 agent harness

Langchain团队通过开源评估架构,优化深度代理的能力评估,涵盖文件操作、工具选择和记忆管理等方面。采用标签分组和自我验证机制,确保代理在多轮对话中有效处理信息,评估结果追踪至LangSmith,以便分析和改进。

Langchain 团队如何评估与优化 agent harness

Measure Zero
Measure Zero · 2026-04-28T00:00:00Z
通过哈希工程提升深度代理的性能

本文介绍了通过优化“哈希工程”,将Terminal Bench 2.0中的编码代理从前30名提升至前5名。关键在于自我验证和追踪分析,帮助识别错误并提升代理性能。通过调整系统提示、工具和中间件,结合自动化追踪分析,显著提高了代理的任务执行能力。

通过哈希工程提升深度代理的性能

LangChain Blog
LangChain Blog · 2026-02-17T16:15:28Z

智能体SmartSnap通过自我验证提升任务执行效率,主动收集证据以降低验证成本,使其从被动执行者转变为主动自证者,显著提高性能和交互效率,未来将推动AI的可靠性和低成本部署。

智能体卷王诞生!干活自动配结项报告,1.5张截图就把事说清了

量子位
量子位 · 2026-01-10T06:39:44Z
RL 后训练进化论:从PPO被动奖励、GRPO组内奖励到DeepSeekMath-V2自验证奖励

DeepSeek-R1展示了强化学习(RLHF)在大模型推理中的重要性,挑战了传统观念。通过去除Critic和采用组内统计方法,提升了训练效率,推动了RL后训练的变革,未来将向自我验证循环发展。

RL 后训练进化论:从PPO被动奖励、GRPO组内奖励到DeepSeekMath-V2自验证奖励

逐水寻源
逐水寻源 · 2025-11-28T14:00:22Z

本研究提出了一种新的在线强化学习框架RISE,旨在提升大型语言模型的自我验证能力和解题准确性,从而增强推理过程,推动智能推理系统的发展。

信任但要验证:一种具有可验证奖励的强化学习自我验证方法

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-19T00:00:00Z

本文提出了一种结合思维链与检索增强生成的方法,以解决大型语言模型在复杂任务中产生虚假信息的问题。研究表明,外部知识和自我验证策略的引入显著提升了模型的响应质量和推理深度。

Enhancing the Reliability of Large Language Models: Integrating Chain of Thought, Retrieval-Augmented Generation, Self-Consistency, and Self-Verification

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-13T00:00:00Z
通过简单的 JPEG 压缩实现图像的自我验证

近年来,针对图像篡改的风险,研究者提出了水印和防篡改技术两种检测方法。新研究利用JPEG压缩作为自我验证机制,经过多次压缩后图像保持不变,若有变化则表明篡改。这种方法简化了验证过程,无需外部信号。

通过简单的 JPEG 压缩实现图像的自我验证

实时互动网
实时互动网 · 2025-04-27T03:58:33Z

本研究提出了一种工具集成自我验证方法(T1),有效解决了小型语言模型在记忆密集型任务中的自我验证能力不足问题,显著提升了其性能,实验结果表明该方法超越了更大模型的表现。

Application of Tool-Integrated Self-Verification in Test-Time Compute Scaling for Small Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-07T00:00:00Z

本研究提出CogGRAG框架,通过分解、检索和自我验证三个阶段,解决大语言模型在知识整合和复杂推理中的幻觉与不可靠输出问题,显著提升模型性能。

A Knowledge Graph-Based Human Cognition-Inspired Retrieval-Augmented Generation Framework for Complex Problem Solving

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-09T00:00:00Z
研究表明,AI模型通过检查多个答案变得更智能

研究表明,生成多个答案并进行自我验证可以提升AI模型的推理能力。随机抽样和比较不同输出有助于识别错误和幻觉,从而提高模型性能。

研究表明,AI模型通过检查多个答案变得更智能

DEV Community
DEV Community · 2025-02-09T06:51:46Z
基于AI的知识挖掘系统利用多个代理以更高的准确性提取数据

OneKE是一个基于Docker的知识提取系统,通过多个AI代理协作提取文本信息,确保准确性并实现自我验证,便于部署和扩展。

基于AI的知识挖掘系统利用多个代理以更高的准确性提取数据

DEV Community
DEV Community · 2025-02-01T06:43:09Z
OpenAI推出o3 - 具备推理能力的生成模型家族

OpenAI推出新一代生成模型o3,取代o1,分为o3和o3-mini两个版本。o3具备自我验证能力,提升信息准确性,但处理速度较慢。新技术“私有思维链”增强了回答规划能力。o3在编程和数学测试中表现优异,预计明年正式发布。

OpenAI推出o3 - 具备推理能力的生成模型家族

DEV Community
DEV Community · 2024-12-26T10:18:57Z
昆仑万维「天工大模型4.0」o1版(Skywork o1)正式启动邀请测试

昆仑万维推出国内首款中文逻辑推理o1模型Skywork o1,具备复杂思考和自我验证能力,显著提升推理能力,支持复杂数学任务,包含开源和专用版本,推动开源社区发展。

昆仑万维「天工大模型4.0」o1版(Skywork o1)正式启动邀请测试

机器之心
机器之心 · 2024-11-27T09:02:35Z

本文介绍了一种基于GPT模型的命名实体识别(NER)算法GPT-NER,提出了自我验证策略以解决幻觉问题。研究表明,该算法在低资源学习中优于有监督模型,并且结合大型语言模型的混合标注方法能有效提升NER性能,解决类别不平衡问题。多项实验结果证明,引入外部知识和自我改进框架显著提升了NER任务的效果。

LTNER:基于上下文实体标记的大型语言模型命名实体识别

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-08T00:00:00Z

本文介绍了一种新型对话型问答系统,结合细粒度检索和自我验证技术,显著提升了问题理解和信息获取能力。研究表明,该系统在科学问答基准测试中超越现有模型,并发布了相关中文数据集以促进研究。此外,探讨了PDF解析对问答系统有效性的影响,提出了新的评估基准和算法,以提高长答案问答的性能。

CLAPNQ: 自然问题中来自段落的连贯长答案用于 RAG 系统

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-02T00:00:00Z

本文探讨了大语言模型LLM(主要是GPT-4)自我验证解决方案的可能性,介绍了机器人技术、深度强化学习和AlphaGo等领域中代理者自我批评的实施情况。文章还提到了“让我们一步步思考”论文中的思维链提示技术和使用LLM来帮助批评LLM答案的研究。作者认为随着LLM中神经网络上下文长度的增加,自我反思将成为更有效的提示技术,并提出了在没有人为干预的情况下使用批评来产生更好输出的可能性。

大语言模型LLM能否对自己的成果进行批判和迭代? | evjang

极道
极道 · 2023-03-31T07:19:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码