小红花·文摘

本研究提出了一种新的任务：在实时3D场景中进行语言指导的物体放置。建立了基准和评估协议，并提供了训练数据集，首次提出了基线方法，以评估通用3D大语言模型的性能。

PlaceIt3D: Language-Guided Object Placement in Real 3D Scenes

BriefGPT - AI 论文速递 ·

本研究提出了一个统一的基准和评估协议，以解决深度强化学习中的塑性丧失问题，并推出开源框架“塑形”，提供多种减轻方法和评估指标，推动该领域的研究进展。

Shaping: Accelerating Research in Deep Reinforcement Learning Driven by Plasticity

BriefGPT - AI 论文速递 ·

本研究提出了一种新评估协议，解决了自我监督学习在3D场景理解中的局限性。通过掩蔽场景建模，所开发的自我监督模型在性能上与有监督模型相当，并超越了现有方法。

Masked Scene Modeling: Bridging the Gap Between Supervised and Self-Supervised Learning in 3D Scene Understanding

BriefGPT - AI 论文速递 ·

本研究探讨了动态场景图生成中的精度-召回权衡、三元组重要性意识不足和评估协议不当等问题。通过分析视频中的大型多模态模型，发现简单解码结构能够有效解决这些问题，并在少量微调下实现最佳效果，展现出重要的研究潜力。

Applications of Off-the-Shelf Large Multi-Modal Models in Dynamic Scene Graph Generation

BriefGPT - AI 论文速递 ·

本研究探讨了图学习在药物设计和分子属性预测中的基准挑战，指出现有基准缺乏实际应用的关注，建议采用更具意义的基准和评估协议，以促进研究进展和领域合作。

Position Statement: Graph Learning Will Lose Relevance Due to Poor Benchmarks

BriefGPT - AI 论文速递 ·

本研究探讨大型语言模型（LLMs）在自然语言生成评估中的偏见问题，提出多维度独立评估系统以提高评估质量。研究发现LLMs存在显著偏见，且与人类偏好不一致，强调需开发更可靠的评估协议和缓解策略，以提升模型的公平性和准确性。

大型语言模型在检索增强生成中的偏见评估

BriefGPT - AI 论文速递 ·

本研究解决了神经文本到音频生成中的可控性和评估问题，提出了有效的评估协议，发现大模型表现优异，轻量化方法也展现出潜力，为音频质量和合成器架构提供了重要方向。

Challenges in Sound Scene Synthesis: Evaluating Text-to-Audio Generation

BriefGPT - AI 论文速递 ·

本研究探讨视觉-语言模型在空间表达中的模糊性，提出评估协议COMFORT以系统性评估其空间推理能力。结果显示，这些模型在鲁棒性和跨文化适应性方面存在显著不足，强调了空间推理中的模糊性和文化差异的重要性。

How Do Vision-Language Models Represent Space? Evaluating Spatial Frames of Reference Under Ambiguities

BriefGPT - AI 论文速递 ·

本文介绍了基于大型语言模型（LLMs）的网络代理技术的进展，包括WebAgent、WebVoyager和AutoWebGLM等新模型。这些模型通过与真实网站交互，提高了网页导航任务的成功率，并提出了新的评估协议和框架，以应对复杂用户指令和长期任务的挑战。同时，研究还探讨了多模态代理的性能及未来发展方向。

AgentOccam：基于LLM的网页代理的简单而强大的基线

BriefGPT - AI 论文速递 ·

本文提出了一种新方法——多模式复合关联分数（MCAS），用于测量多模式生成模型中的性别偏见。研究发现DALL-E 2和Stable Diffusion等模型存在性别和种族偏见，并提出了分布对齐损失和有偏直接微调等技术以降低这些偏见。研究强调了解决生成模型偏见的紧迫性，并提供了评估协议以分析性别指示对生成图像的影响。

生成偏见：审计文本到图像生成模型的内部偏见动态

BriefGPT - AI 论文速递 ·

本文探讨了知识图谱补全（KGC）技术，提出了评估协议以解决模型偏差，并对多种现有方法进行了实验，包括基于常识的嵌入框架、KG-S2S生成框架、网络预训练的补全框架（NetPeace）及基于Transformer的模型（PatReFormer）。此外，综述了知识图谱嵌入设计的主要分支及新方法，提出知识感知推理模型（MUSE），在多个数据集上显著提高了关系预测准确性。

可插拔的常识增强知识图完成框架

BriefGPT - AI 论文速递 ·

本文探讨计算机视觉中的模型学习偏见及其缓解方法，提出改进的评估协议和新数据集，以评估去偏算法的有效性。通过对比学习和新损失函数，研究展示了如何在保持性能的同时更公平地代表输入属性。强调识别和消除偏见的重要性，并提出未来研究方向。

通过偏差增加进行偏差缓解

BriefGPT - AI 论文速递 ·

本文探讨了合成图像检测的最新进展，提出了一种基于反转特征的新型检测器，能够有效识别高视觉保真度的生成图像。研究表明，该检测器在多种设置下表现优异，并引入了新的评估协议以减少偏见。此外，提出了一种无需训练的水印框架，增强了图像的可追溯性和安全性。

合成痕迹掩盖真实内容：稳定扩散图像篡改的分析

BriefGPT - AI 论文速递 ·

本文介绍了多种弱监督目标定位方法的改进，包括引入注意力机制、参数化上采样和新评估协议等。这些方法在CUB-200和ImageNet-1K数据集上显著提高了定位准确度，解决了局部激活问题，并提出了未来研究方向。

CAM 再回归：从弱监督目标定位视角看的大卷积核 CNNs

BriefGPT - AI 论文速递 ·

本文介绍了开放世界目标检测方法OCPL及其模块，验证了其有效性。提出了新的评估协议和框架，改进了未知对象检测性能，并在遥感物体检测中取得了良好效果。此外，研究还探讨了弱监督和半监督目标检测方法，展示了在多个数据集上的优越表现。

BSDP：脑启发的用于在线开放世界目标检测的流式双级扰动

BriefGPT - AI 论文速递 ·

本文研究了文本后门攻击对NLP系统的威胁，并提出了评估协议和开源工具包OpenBackdoor。文章探讨了攻击和防御模型的性能，并提出了聚类-based的防御策略CUBE。

OrderBkd: 文字背门攻击的重新定位

BriefGPT - AI 论文速递 ·

对抗后门攻击中对比学习的防御难度

BriefGPT - AI 论文速递 ·

本文提出了一种基于条件扩散模型的图像到图像转换框架，超越了所有任务上的强基线，无需任务特定的超参数调整、架构定制或辅助丢失或新技术。作者还提倡了一个基于ImageNet的统一评估协议，以推进图像到图像翻译研究。最后，作者展示了一个通用的，多任务扩散模型的执行效果与任务特定的专家模型相当或更好。

CommonCanvas: 一个用 Creative-Commons 图像训练的开放扩散模型

BriefGPT - AI 论文速递 ·

研究表明，基于裁剪和量化的无需训练和无需数据的压缩方法在压缩大型语言模型方面取得了成功。LLM-KICK评估协议揭示了当前最先进的压缩方法的优缺点，并展示了稀疏化和量化对于语言任务的影响。希望这项研究能够促进更好的语言模型压缩方法的发展。

压缩 LLMs：真实很少纯粹而简单

BriefGPT - AI 论文速递 ·

本文总结了网络表征学习技术的文献，分类和分析了评估协议，比较了算法性能和复杂度，并提出未来研究方向。

图表示学习用于专利网络分析

BriefGPT - AI 论文速递 ·