小红花·文摘

谢赛宁领导的华人团队推出了LiveCodeBench Pro编程竞赛基准，测试显示多款大模型在编程题上表现不佳，均得0分。该基准每日更新题库，旨在防止模型“背题”。结果表明，模型在逻辑和知识密集型问题上表现较好，但在观察密集型问题上能力不足，反映出算法推理和案例分析的短板。

量子位 ·

DEV Community ·

DEV Community ·

本研究提出了一种基于规则的强化学习方法，以解决大型推理模型在训练中推理能力不足的问题。经过5000个逻辑问题的训练，模型在数学基准测试中表现出良好的泛化能力。

BriefGPT - AI 论文速递 ·

DEV Community ·

DEV Community ·

该研究提出了多个新框架以提升大型语言模型（LLMs）的性能，包括Rewrite-Retrieve-Read、LLM-PO和AGREE等。这些框架在交互式任务、生成准确回答和优化决策方面表现优异，尤其在复杂环境中需要算法干预。实验表明，LLMs在逻辑问题上仍存在挑战，但结合优化方法可显著提升其表现。

BriefGPT - AI 论文速递 ·

文武科技柜 ·