小红花·文摘

AdaBoN：自适应Best-of-N对齐

Apple Machine Learning Research ·

本文研究了一种LTLf合成的变体，旨在为多层次目标合成自适应策略。该策略通过博弈论技术动态调整，以较低的复杂度满足更多目标。

针对非确定性领域中的多层次目标的LTLf自适应合成

BriefGPT - AI 论文速递 ·

该研究评估了多模态大语言模型（MLLM）在提示工程中的表现，比较了七种方法。结果表明，自适应策略结合示例指导与选择性结构推理显著提升了模型的鲁棒性和准确性，为人工智能应用提供了有效的提示工程建议。

The Future of Multimodal Large Language Model Prompting is Adaptive: A Comprehensive Experimental Evaluation of Prompt Engineering Methods to Enhance Multimodal Performance

BriefGPT - AI 论文速递 ·

本研究系统探讨在线会议摘要，填补了以往离线任务的学术空白。提出多项策略和新评估指标，实验结果表明在线模型生成高质量摘要，自适应策略优于固定调度。

Policies and Evaluation of Online Meeting Summarization

BriefGPT - AI 论文速递 ·

Daydreams深度解析：下一代链上代理的技术评审

DEV Community ·

本研究提出了一种两级部署框架，以应对不可信大语言模型（LLM）可能绕过安全措施的问题。该框架通过自适应宏协议选择微协议，有效监控不可信模型，最大化安全性和实用性。研究表明，这种自适应策略能将后门数量减少80%。

Adaptive Deployment of Untrusted LLMs Reduces Distributed Threats

BriefGPT - AI 论文速递 ·

本文介绍了NeoRL基准，用于评估离线强化学习算法，并提出了混合离线-在线学习范式H2O，展示其在复杂任务中的优越性。研究了基于策略的离线强化学习算法和FineTuneRL设置，强调了在线与离线数据结合的重要性。提出了自适应策略学习框架，以提升离线数据质量并优化在线微调过程，实验结果显示显著性能提升。

离线到在线强化学习的非单一政策方法

BriefGPT - AI 论文速递 ·

本研究提出了一种自适应数据收集策略，通过RIDO算法动态调整轨迹长度，解决了蒙特卡洛强化学习中固定长度轨迹的局限性，减少估计误差。结果显示该策略在多个领域表现优异。

Trajectory Truncation in Monte Carlo Policy Evaluation: An Adaptive Approach

BriefGPT - AI 论文速递 ·

本文介绍了多种视觉惯性测距（VIO）技术，包括通过摄像头和惯性测量单元实现姿态和速度估计的方法。研究提出了新颖的传感器融合框架、无监督深度学习方法及自适应策略网络，并在多个数据集上测试，显示出在动态环境和复杂场景中的优越性能。

面向资源受限无人机的低延迟视觉惯性里程计，利用传感器加速的光流

BriefGPT - AI 论文速递 ·

本文介绍了多种离线强化学习方法，包括BOSA、基于不确定性的算法和自适应策略学习框架。这些方法通过优化策略和利用不同数据源，提高了离线数据的效率和模型性能，解决了分布偏移问题，并在多个基准测试中取得了优异的结果。

使用未标记数据增强离线强化学习

BriefGPT - AI 论文速递 ·

本研究提出了一种多模式方法来同时机器翻译，使用自适应策略平衡翻译质量和延迟，并通过集成视觉和文本信息来支持该过程。研究发现，视觉线索可以在保持延迟低的同时提高翻译质量。

SiLLM：大型语言模型用于同步机器翻译

BriefGPT - AI 论文速递 ·

本文介绍了一种自适应策略学习框架，该框架集成了离线学习和在线学习。它采用乐观/贪婪和悲观更新策略来提高离线数据集的质量，从而实现高样本效率。

离线训练用于在线 RL: 解耦策略学习以减轻探索偏见

BriefGPT - AI 论文速递 ·