小红花·文摘

本文评估了大型视觉语言模型（VLMs）的安全性，发现其易受攻击并生成有害内容。通过引入安全指令数据集VLGuard和两阶段推理对齐框架（ETA），研究显著提升了模型的安全性，降低了攻击成功率。提出的CoCA技术和跨模态表征操控（CMRM）方法有效恢复了VLMs的安全对齐能力。

大规模视觉语言模型中的跨模态安全机制转移

BriefGPT - AI 论文速递 ·

本文探讨了自然语言视频定位的多种方法，包括弱监督模型、跨模态注意力模块和基于常识感知的对齐框架，旨在提高视频时间定位的精确度和效率。研究表明，这些新方法在多个数据集上表现优越，推动了视频定位技术的发展。

无训练视频时间定位的基于大规模预训练模型的方法

BriefGPT - AI 论文速递 ·

研究表明，大型语言模型（LLMs）在决策和偏见方面与人类表现相似。尽管在分类和推理能力上存在显著差异，但人类与LLMs的合作可以产生协同效应。研究提出了新的对齐框架，强调偏好评估的可操控性，并指出偏差校正对确保AI模型与人类价值观一致的重要性。

研究大型语言模型中的相似性判断的情境效应

BriefGPT - AI 论文速递 ·

本文探讨了大型语言模型（LLMs）的人类偏好调整方法，比较了不同对比技术的效果，发现对比式后训练（DPO）在性能上优于传统方法。研究提出了CodeUltraFeedback数据集和CODAL-Bench基准，验证了通过AI反馈优化模型编码偏好的有效性，并介绍了新型对齐框架$i$REPO，显著提高了模型对齐效果。

锚定偏好优化与对比修订：解决对齐中的不足规范问题

BriefGPT - AI 论文速递 ·

本文提出了一种大型语言模型对齐框架，利用少量数据优化群体偏好，减少计算资源需求。研究还介绍了多任务学习中的任务分组方法，验证了其在多个领域的有效性。实验结果表明，该方法显著降低了测试损失并加速了计算。

GO4Align: 多任务对齐的群体优化

BriefGPT - AI 论文速递 ·

本文介绍了一种民主化的三维内容创作方法，通过抽象的草图精确生成三维形状，克服了绘画技巧的限制。方法利用部分水平建模和对齐框架促进了抽象建模和跨模式对应关系，无需人类草图和三维形状配对数据集。同时，方法通过交叉模式的部分对齐建模实现了无缝的位置调整过程。在低维隐含空间中运作，大大降低了计算需求和处理时间。

手绘 3D：从抽象自由手稿到精准 3D 形状

BriefGPT - AI 论文速递 ·