小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
AdaBoN:自适应Best-of-N对齐

本文介绍了一种自适应的Best-of-N对齐策略,旨在提高语言模型的效率。该方法通过两阶段算法,首先估计每个提示的奖励分布,然后根据这些估计动态分配计算预算。实验证明,该策略在多个数据集上优于均匀分配,且在批量大小增加时表现更佳。

AdaBoN:自适应Best-of-N对齐

Apple Machine Learning Research
Apple Machine Learning Research · 2026-01-09T00:00:00Z

本文研究了一种LTLf合成的变体,旨在为多层次目标合成自适应策略。该策略通过博弈论技术动态调整,以较低的复杂度满足更多目标。

针对非确定性领域中的多层次目标的LTLf自适应合成

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-29T00:00:00Z

该研究评估了多模态大语言模型(MLLM)在提示工程中的表现,比较了七种方法。结果表明,自适应策略结合示例指导与选择性结构推理显著提升了模型的鲁棒性和准确性,为人工智能应用提供了有效的提示工程建议。

The Future of Multimodal Large Language Model Prompting is Adaptive: A Comprehensive Experimental Evaluation of Prompt Engineering Methods to Enhance Multimodal Performance

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-14T00:00:00Z

本研究系统探讨在线会议摘要,填补了以往离线任务的学术空白。提出多项策略和新评估指标,实验结果表明在线模型生成高质量摘要,自适应策略优于固定调度。

Policies and Evaluation of Online Meeting Summarization

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-05T00:00:00Z
Daydreams深度解析:下一代链上代理的技术评审

Daydreams是一个创新的区块链代理框架,旨在克服传统系统的局限。它通过层次任务网络、代理协作和无定制代码集成,支持跨链执行和自适应策略。Daydreams的记忆系统模仿人类认知,能够从交互中学习,适用于去中心化金融和NFT交易等多种场景。

Daydreams深度解析:下一代链上代理的技术评审

DEV Community
DEV Community · 2025-02-04T23:16:49Z

本研究提出了一种两级部署框架,以应对不可信大语言模型(LLM)可能绕过安全措施的问题。该框架通过自适应宏协议选择微协议,有效监控不可信模型,最大化安全性和实用性。研究表明,这种自适应策略能将后门数量减少80%。

Adaptive Deployment of Untrusted LLMs Reduces Distributed Threats

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-26T00:00:00Z

本文介绍了NeoRL基准,用于评估离线强化学习算法,并提出了混合离线-在线学习范式H2O,展示其在复杂任务中的优越性。研究了基于策略的离线强化学习算法和FineTuneRL设置,强调了在线与离线数据结合的重要性。提出了自适应策略学习框架,以提升离线数据质量并优化在线微调过程,实验结果显示显著性能提升。

离线到在线强化学习的非单一政策方法

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-31T00:00:00Z

本研究提出了一种自适应数据收集策略,通过RIDO算法动态调整轨迹长度,解决了蒙特卡洛强化学习中固定长度轨迹的局限性,减少估计误差。结果显示该策略在多个领域表现优异。

Trajectory Truncation in Monte Carlo Policy Evaluation: An Adaptive Approach

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-17T00:00:00Z

本文介绍了多种视觉惯性测距(VIO)技术,包括通过摄像头和惯性测量单元实现姿态和速度估计的方法。研究提出了新颖的传感器融合框架、无监督深度学习方法及自适应策略网络,并在多个数据集上测试,显示出在动态环境和复杂场景中的优越性能。

面向资源受限无人机的低延迟视觉惯性里程计,利用传感器加速的光流

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-19T00:00:00Z

本文介绍了多种离线强化学习方法,包括BOSA、基于不确定性的算法和自适应策略学习框架。这些方法通过优化策略和利用不同数据源,提高了离线数据的效率和模型性能,解决了分布偏移问题,并在多个基准测试中取得了优异的结果。

使用未标记数据增强离线强化学习

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-11T00:00:00Z

本研究提出了一种多模式方法来同时机器翻译,使用自适应策略平衡翻译质量和延迟,并通过集成视觉和文本信息来支持该过程。研究发现,视觉线索可以在保持延迟低的同时提高翻译质量。

SiLLM:大型语言模型用于同步机器翻译

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-02-20T00:00:00Z

本文介绍了一种自适应策略学习框架,该框架集成了离线学习和在线学习。它采用乐观/贪婪和悲观更新策略来提高离线数据集的质量,从而实现高样本效率。

离线训练用于在线 RL: 解耦策略学习以减轻探索偏见

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-12T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码