小红花·文摘

通过哈希工程提升深度代理的性能

LangChain Blog ·

智能体SmartSnap通过自我验证提升任务执行效率，主动收集证据以降低验证成本，使其从被动执行者转变为主动自证者，显著提高性能和交互效率，未来将推动AI的可靠性和低成本部署。

智能体卷王诞生！干活自动配结项报告，1.5张截图就把事说清了

量子位 ·

RL 后训练进化论：从PPO被动奖励、GRPO组内奖励到DeepSeekMath-V2自验证奖励

逐水寻源 ·

本研究提出了一种新的在线强化学习框架RISE，旨在提升大型语言模型的自我验证能力和解题准确性，从而增强推理过程，推动智能推理系统的发展。

信任但要验证：一种具有可验证奖励的强化学习自我验证方法

BriefGPT - AI 论文速递 ·

本文提出了一种结合思维链与检索增强生成的方法，以解决大型语言模型在复杂任务中产生虚假信息的问题。研究表明，外部知识和自我验证策略的引入显著提升了模型的响应质量和推理深度。

Enhancing the Reliability of Large Language Models: Integrating Chain of Thought, Retrieval-Augmented Generation, Self-Consistency, and Self-Verification

BriefGPT - AI 论文速递 ·

通过简单的 JPEG 压缩实现图像的自我验证

实时互动网 ·

本研究提出了一种工具集成自我验证方法（T1），有效解决了小型语言模型在记忆密集型任务中的自我验证能力不足问题，显著提升了其性能，实验结果表明该方法超越了更大模型的表现。

Application of Tool-Integrated Self-Verification in Test-Time Compute Scaling for Small Language Models

BriefGPT - AI 论文速递 ·

本研究提出CogGRAG框架，通过分解、检索和自我验证三个阶段，解决大语言模型在知识整合和复杂推理中的幻觉与不可靠输出问题，显著提升模型性能。

A Knowledge Graph-Based Human Cognition-Inspired Retrieval-Augmented Generation Framework for Complex Problem Solving

BriefGPT - AI 论文速递 ·

研究表明，AI模型通过检查多个答案变得更智能

DEV Community ·

基于AI的知识挖掘系统利用多个代理以更高的准确性提取数据

DEV Community ·

OpenAI推出o3 - 具备推理能力的生成模型家族

DEV Community ·

昆仑万维「天工大模型4.0」o1版（Skywork o1）正式启动邀请测试

机器之心 ·

大语言模型在规划和推理方面存在误解，自回归LLM无法独立进行规划或自我验证。我们提出了LLM-模块化框架，将LLM与外部验证器结合，以提升其规划和推理能力。

语言模型非短视生成用于推理和规划

BriefGPT - AI 论文速递 ·

本文探讨了大语言模型LLM（主要是GPT-4）自我验证解决方案的可能性，介绍了机器人技术、深度强化学习和AlphaGo等领域中代理者自我批评的实施情况。文章还提到了“让我们一步步思考”论文中的思维链提示技术和使用LLM来帮助批评LLM答案的研究。作者认为随着LLM中神经网络上下文长度的增加，自我反思将成为更有效的提示技术，并提出了在没有人为干预的情况下使用批评来产生更好输出的可能性。

大语言模型LLM能否对自己的成果进行批判和迭代？ | evjang

极道 ·