小红花·文摘

16 CFR 1632和16 CFR 1633是一样的吗？

DEV Community ·

Neural Honey Tracing: A Robust Plug-and-Play Watermarking Framework Against Model Extraction Attacks

BriefGPT - AI 论文速递 ·

本研究提出了一种新颖的初始化方法，旨在解决样本数量较少时从平稳分布有效采样多模态分布的难题。研究表明，低复杂度的Ising度量能够有效学习样本，为相关方法提供理论支持。

Effective Learning and Sampling of Multimodal Distributions Based on Data Initialization

BriefGPT - AI 论文速递 ·

本研究探讨生成模型输出的有效性，提出“有效性查询”以降低无效输出的概率。结果表明，在特定条件下，确保有效性所需的样本数量与有效性要求关系不大，为分布学习提供了新思路。

Learning Effective Output Distributions Beyond Worst-Case Scenarios

BriefGPT - AI 论文速递 ·

该论文探讨了多模态对话生成任务，提出了一种结合图像和对话历史生成回答的方法。研究表明，在低资源情况下，图像驱动的对话生成能够有效提升样本数量和应答质量，且在多模态对话系统中表现出良好的泛化性能和人类评估效果。

BI-MDRG：在多模态对话响应生成中桥接图像历史

BriefGPT - AI 论文速递 ·

我们提出了一种新颖的决策感知替代损失函数家族，称为扰动梯度（PG）损失函数，用于预测 - 优化框架。与现有的替代损失函数不同，我们的 PG 损失函数的近似误差随着样本数量的增加而消失。我们提供了数值证据，证实当基础模型发生错配且噪声不是中心对称时，我们的 PG 损失函数在实质上优于现有的提案。PG 损失函数提供了一种新颖的、在理论上有理据的、可计算的、决策感知学习的方法。

预测优化框架的最佳策略学习

BriefGPT - AI 论文速递 ·

该研究使用深度神经网络同时学习模型和策略，提出使用模型集合来维护模型的不确定性并规范学习过程。通过使用“likelihood ratio”导数，可以获得更加稳定的学习。该方法在连续控制基准任务中，显著减少了比基于模型的深度RL方法所需的样本数量。

奖励模型合集有助于缓解过度优化

BriefGPT - AI 论文速递 ·

研究者提出了一种名为APART的组合方法，通过使用内在奖励和轨迹预测技能的判别器相互训练。他们发现这种方法在简单的网格环境中显著减少了样本数量。研究者通过改变VIC、重新调整内在奖励和调整softmax判别器的温度来实现最大技能。这些研究结果揭示了强化学习中技能发现算法成功的关键因素。

APART: 采用升序奖励和丢弃法的多样化技能发现

BriefGPT - AI 论文速递 ·