小红花·文摘

AI能代替人干活吗？B站联合6位UP主用OpenClaw直播做了次社会实验

量子位 ·

UCSD研究团队提出PettingLLMs框架，实现了大语言模型的多智能体“群体强化”学习，工具调用能力提升5.8倍。该框架结合树状采样与角色化奖励机制，支持多智能体协作训练，显著提高任务表现，适用于医疗和编程等领域。实验结果显示，规划类任务性能从14%提升至96%。

LLM强化学习新框架！UCSD多智能体训练框架让LLM工具调用能力暴增5.8倍

量子位 ·

本研究提出RLVR-World框架，解决传统世界模型训练目标与任务特定目标不一致的问题，通过可验证奖励的强化学习优化模型性能，显著提升语言和视频任务的表现。

RLVR-World: Training World Models with Reinforcement Learning

BriefGPT - AI 论文速递 ·

本研究提出了ManipBench基准，用于评估视觉-语言模型在低级机器人操作中的有效性。结果表明，不同模型在任务表现上存在显著差异，并且与真实操作任务相关，显示出模型与人类理解之间的明显差距。

ManipBench: Benchmarking Vision-Language Models for Low-Level Robot Manipulation

BriefGPT - AI 论文速递 ·

本研究探讨了如何通过增强现实（AR）技术在日常环境中提升人类认知，提出了一种始终在线的AR方法，以促进主动和上下文敏感的互动，从而显著优化任务表现和理解力。

Augmenting Human Cognition through Everyday Augmented Reality

BriefGPT - AI 论文速递 ·

热乎的：同样的Agent同样的任务，分别调用Qwen 3和DeepSeek对比谁更强？

dotNET跨平台 ·

本研究探讨了医疗保健领域语言模型的选择，比较了微调与零-shot使用的必要性。结果表明，微调的小语言模型在特定任务中表现优于零-shot模型，而领域相邻模型在困难任务上也优于通用模型，强调了微调的重要性。

小模型还是大模型？零-shot还是微调？指导语言模型在医疗保健专业应用中的选择

BriefGPT - AI 论文速递 ·

大模型推理无损加速6.5倍！EAGLE-3碾压一切、延续Scaling Law能力

机器之心 ·

本研究探讨大型语言模型（LLMs）在推理效率与性能之间的权衡，分析推理经济，提出不同推理模式的行为分析及解决方案，以降低计算成本并提升任务表现，为改进LLMs的推理效率提供实用见解。

Harnessing the Reasoning Economy: A Survey of Efficient Reasoning for Large Language Models

BriefGPT - AI 论文速递 ·

本研究提出3D空间多模态记忆（M3），有效解决传统多模态记忆系统在高维特征存储和信息对齐方面的挑战，显著提升任务表现。

3D空间多模态记忆（M3）

BriefGPT - AI 论文速递 ·

本研究提出了一种改进的条件扩散策略，通过精炼采样分布来避免模仿学习中样本行动的失败。利用成功示范的数据进行推断，可以有效恢复行动，并在多个任务中优于传统方法。

Composition of Conditional Diffusion Policies and Guided Sampling

BriefGPT - AI 论文速递 ·

本研究提出了一种视觉注意力再分配（VAR）方法，旨在解决大规模多模态模型在处理视觉信息时对不相关标记的过度关注。该方法优化了模型的注意力机制，增强了对关键视觉信息的聚焦，从而提升了多个视觉任务的表现，无需额外的训练或推理步骤。

See What You Are Told: Visual Attention Aggregation in Large Multimodal Models

BriefGPT - AI 论文速递 ·

ReAct代理基准测试

LangChain Blog ·

本研究提出了一种新方法DIFF-IL，旨在解决跨域模仿学习中的高维、嘈杂和不完整视觉观察问题。该方法通过提取域不变特征并适应成序列，结合逐帧时间标记技术，显著提升了任务表现。

Method for Frame Feature Extraction Based on Cross-Domain Imitation Learning

BriefGPT - AI 论文速递 ·

本研究分析了大型视觉语言模型（LVLMs）中的幻觉现象，提出了一种新的注意力修改方法，结合选择性标记和头部特异性调节，以减少生成与输入图像不符的描述。实验结果表明，该方法能将幻觉率降低62.3%，同时保持任务表现。

Fixing Imbalanced Attention to Mitigate In-Context Hallucination in Large Vision-Language Models

BriefGPT - AI 论文速递 ·

本研究提出了iPrOp互动提示优化系统，结合手动与自动提示优化，解决了提示工程中对提示作者技能的依赖问题。该系统允许用户干预优化过程，提高任务表现，便于非技术专家生成提示。

iPrOp: Interactive Prompt Optimization for Large Language Models with Feedback

BriefGPT - AI 论文速递 ·

本研究提出了一种新颖的两步预测方法，解决了预训练语言模型在过度训练环境下的任务表现预测问题。通过小规模的“阶梯”模型，成功预测目标模型的任务准确性，资源占用仅为1%。

Establishing Task Scaling Laws through Computationally Efficient Model Staircases

BriefGPT - AI 论文速递 ·

本研究探讨了长期上下文语言模型（LCLM）的评估方法，发现分类和概括任务在提供额外示例时表现显著提高，而翻译和推理任务未显示明显趋势。研究设立了新基准MANYICLBENCH，以评估LCLMs的检索和全球上下文理解能力，结果显示许多先进模型在全球上下文任务中的性能显著下降。

检索还是全球上下文理解？关于长期上下文评估的多次示例上下文学习

BriefGPT - AI 论文速递 ·

本研究提出了人类场景视觉语言模型（HumanVLM），旨在解决现有模型在特定人类场景理解中的不足。通过构建大规模多模态数据集，HumanVLM在多模态任务中表现优异，尤其在人相关任务上显著超越同类模型，推动了相关领域的研究进展。

HumanVLM: The Foundation of Human-Scene Vision-Language Model

BriefGPT - AI 论文速递 ·

本研究提出HuDOR技术，解决多指机器人手臂从人类视频中训练的挑战，通过在线微调策略显著加速学习，实验结果显示任务表现提升了4倍。

Narrowing the Gap in Dexterity Between Humans and Robots Through Object-Oriented Rewards

BriefGPT - AI 论文速递 ·