小红花·文摘

何时使用生成性人工智能：实用决策框架

The New Stack ·

完整的AI代理决策框架

MachineLearningMastery.com ·

智能体是能够自主感知、决策和执行任务的系统，区别于聊天机器人。设计智能体时需考虑任务复杂性、路径变化和系统交互，适用于多步骤、动态调整和跨系统交互的任务。选择工具时可使用低代码平台或开源框架，需关注成本和任务复杂性。理解智能体的定义和应用场景，有助于更好地发挥其优势。

去伪存真：聊聊 AI 智能体的定义、工具选择与避坑

少数派 ·

本文介绍了DexVLA模型的开发，旨在提升机器人在多样环境中执行复杂任务的能力。通过引入扩散动作专家和具身课程学习，DexVLA优化了机器人对语言指令的理解和动作执行。研究者提出了三阶段训练策略，逐步提高任务复杂性，最终实现高效的衣物折叠等任务。

DexVLA——在VLM上插上1B大小的扩散动作专家：使用带有子步骤推理注释的演示数据训练，15小时搞定叠衣服(含源码解析)

结构之法算法之道 ·

本研究提出了S1-Bench，一个多领域多语言的问题集，用于评估大型推理模型在简单任务中的思维能力。对22个大型推理模型的评估显示其效率低下，思维平衡和任务复杂性适应性不足。

S1-Bench：评估大型推理模型系统1思维能力的简单基准

BriefGPT - AI 论文速递 ·

推理模型使用最佳实践

宝玉的分享 ·

本研究探讨了紧急沟通（EC）的解读及其与自然语言（NL）的关系，采用无监督神经机器翻译技术，发现任务复杂性和语义多样性影响EC的可翻译性。尽管复杂任务使EC难以解释，但仍适合翻译。

Unsupervised Translation of Emergent Communication

BriefGPT - AI 论文速递 ·

该研究提出了一种课程学习方法，解决了传统强化学习在四旋翼稳定控制中的样本效率低和任务复杂性高的问题。通过逐步增加任务复杂性和引入新奖励函数，结果表明该方法在性能和鲁棒性上优于单阶段策略，同时降低了计算资源需求和收敛时间。

基于课程的样本有效强化学习用于四旋翼的稳健稳定化

BriefGPT - AI 论文速递 ·

本文总结了CRAC 2024研讨会的多语言共指消解任务，分析了过去的挑战并提出改进。通过不提供零指代金标准和增加历史语言，任务的复杂性和现实性得到提升，增强了其实用性。

Research Results of the Third Multilingual Coreference Resolution Shared Task

BriefGPT - AI 论文速递 ·

Meta通过软件供应链衡量开发者生产力

The New Stack ·

研究提出了Scylla动态评估框架，用于量化评估大型语言模型在分布内和分布外数据上的表现。发现任务复杂性与表现差距存在非单调关系，揭示了LLMs的泛化能力有上限。随着模型规模增大，处理复杂任务的能力提高。研究还强调了微调对泛化能力的影响，并探讨了模型复杂性对微调性能的影响。

量化大型语言模型的泛化复杂性

BriefGPT - AI 论文速递 ·

本文研究了多任务预训练在自然语言处理中的效果，提出了ExT5模型，通过107个任务的自监督和监督学习显著提升了性能和样本效率。同时，提出了ComplexityNet模型，专注于任务复杂性评估，展现了在准确性和计算资源使用上的优势。此外，研究探讨了任务分组和难度标注数据集的构建，为多任务学习提供了新的方法和基准。

任务复杂性：用于任务复杂性分类的数据集及其在In-Context Learning、FLAN-T5和GPT-4o基准测试中的应用

BriefGPT - AI 论文速递 ·

实验发现链式思维（CoT）对大型语言模型（LLMs）的推理能力有重要作用，增加推理步骤长度能提高LLMs在多个数据集上的推理能力，即使推理方法有误，只要保持必要的推理步骤长度，仍能取得良好结果。推理步骤的增加对任务优势取决于任务复杂性，这些发现为更好地利用LLMs的潜力提供了实际指导。

推理步长对大型语言模型的影响

BriefGPT - AI 论文速递 ·

重新调整以利用人工智能的超能力

McKinsey Insights & Publications ·