生成式推荐(GRs)在过去一年取得显著进展,依托大型语言模型(LLM)提升推荐性能,形成新范式。传统推荐面临特征工程和模型复杂度的瓶颈,而LLM通过长序列建模和知识注入有效解决冷启动问题。未来,GRs将重点关注深度推理、多模态对齐和并行生成优化,重构推荐系统的价值链。
生成式推荐(GRs)在过去一年取得显著进展,利用大型语言模型(LLM)提升推荐性能,形成新范式。传统推荐面临特征工程和模型复杂度的瓶颈,而LLM通过长序列建模和知识注入解决冷启动问题。未来,GRs将专注于深度推理、多模态对齐和并行生成优化,重构推荐系统的价值链,推动智能化发展。
本研究提出了一种通过逆问题实现完美多模态对齐的方法,验证了在假设语义类别以高斯混合形式表示的条件下,无监督跨模态迁移的有效性,展示了其应用潜力。
《2024中国开源开发者报告》聚焦AI大模型,指出“算力墙”导致模型效果递减,智能体将成为最佳AI产品。傅聪预测2025年为智能体元年,未来发展需依赖领域模型小型化、合成数据和多模态对齐等趋势。
本研究提出了统一注意力校准(UAC)和动态注意力校准(DAC)方法,以减缓大型视觉-语言模型中的对象幻觉现象。这些方法有效提高了多模态对齐的准确性,推动了不同LVLM架构的性能达到最先进水平。
北大对齐小组开发的“Align Anything”框架支持多模态对齐,包括文本、图像、音频和视频。该框架实现多种对齐算法,并开源全模态人类偏好数据集,提升模型与人类意图的对齐。通过微调Llama-3.2等模型,增强了指令跟随和识别能力。Align Anything提供模块化和可扩展的工具,支持多模态模型的训练和评估,推动全模态大模型的发展。
本文探讨了视觉与语言导航(VLN)任务中的多模态对齐技术,提出了基于全注意力机制的架构、预训练模型和新训练范式LEO等多种方法,以提升导航性能。研究表明,这些方法在不同数据集上显著提高了成功率,推动了VLN技术的发展。
本文探讨了视觉语言模型(VLMs)的多模态对齐与偏好提取,提出了基于人类反馈的算法,显著提升了模型在复杂任务中的表现。研究通过构建视觉语言反馈数据集和直接偏好优化方法,改善了模型的感知与认知能力,并解决了幻觉问题。此外,推出了WildVision-Arena平台,以收集人类偏好评估VLMs,推动了该领域的研究进展。
本文研究音视频问答(AVQA)任务,提出了MUSIC-AVQA数据集及多种新方法,如渐进式时空感知网络和上下文多模态对齐网络,显著提升了问答性能。同时,研究探讨了多语言环境下的AVQA,提出新的数据集和框架,以提高鲁棒性和准确性。
本文研究了大型语言模型(LLM)的对齐方法,分析了对齐数据集和技术对模型性能的影响。研究表明,较小训练数据子集中的对齐方法在数学问题解决中效果最佳。提出了一种基于蒸馏的多模态对齐模型,增强了语言能力,并通过细粒度监督提升了模型性能。此外,提出了一种参数高效的对齐方法(MEET),显著提高了可控生成质量,强调了对人类偏好的对齐对模型安全性的重要性。
本文介绍了多种视频时刻检索方法的进展,包括多粒度感知网络(MGPN)、HAMMER模型和背景感知时刻检测变压器(BM-DETR)。这些方法通过优化算法和多模态对齐机制,提高了视频检索的准确性和效率,超越了传统基线,展示了最新性能。
本文介绍了多种基于视觉-语言模型的3D场景理解方法,包括无标签数据的伪监督训练、视觉-LiDAR融合和新颖的3D预训练方法。这些技术在3D语义分割、物体检测和姿态估计等任务中显著提升了性能,展示了跨模态知识交流和多模态对齐能力。
本文探讨了视觉与语言导航任务中的多模态对齐技术,提出了跨模态匹配、对比学习和因果学习框架等方法,以提升导航智能体的性能。研究表明,Transformer模型在跨模态理解上表现优越,并通过实验证明了新方法在不同环境中的有效性和泛化能力。
本文提出了一种基于蒸馏的多模态对齐模型,通过偏好调优和自动生成数据的方法解决视觉大语言模型中的幻觉问题。研究探讨了大型语言模型的偏差,提出了OPEN框架以优化用户偏好获取,并介绍了因果偏好优化(CPO)和相对偏好优化(RPO)等新方法,显著提升了模型性能和适应性。
本文介绍了一种名为SyCoCa的对称式对比式字幕生成器,通过全局和局部表达水平上的图像和文本交互,实现了多模态对齐。实验证实了该方法的有效性。
完成下面两步后,将自动完成登录并继续当前操作。