本研究探讨了多模态生成模型的统一框架,解决了不同维度独立处理的问题。通过整合2D、视频、3D和4D生成,推动人工智能的发展,更精准地模拟现实世界。
本研究探讨了味觉与听觉的关系,提出了一种新型多模态生成模型,能够将味觉信息转化为音乐。实验结果表明,经过微调的生成音乐模型(MusicGEN)更能准确反映味觉描述,展示了人工智能在声音与味觉交互中的潜力。
本研究提出了一种模块化动态解决方案,旨在解决多模态生成模型在大规模非策划数据集训练中产生的有害输出问题。该方法通过安全上下文嵌入和双重重建过程,生成更安全的图像,并在基准测试中取得了领先的结果。
本研究提出了一种评估框架,分析多模态生成模型在公平性和可靠性方面的表现,揭示不可靠行为的触发因素,并评估生成内容的多样性与公平性,为检测模型偏见奠定基础。
本研究探讨了多模态生成模型中的越狱攻击及其防御措施,填补了安全机制的文献空白,分析了攻击与防御策略的关系,强调了安全部署的重要性。
研究人员提出了TextHarmony,一个多模态生成模型,能够理解和生成视觉文本。通过Slide-LoRA的支持,TextHarmony在视觉文本理解和生成任务中都有显著提升。这项研究为视觉文本领域的集成方法提供了可行性。
本文介绍了学习多模态生成模型的四个判定标准,并提出了一种混合专家多模态变分自编码器(MMVAE),用于学习不同模态的生成模型。该模型在图像-语言数据集上展示了其实现四个标准的能力,包括质量和数量两方面的定性和定量分析。
LaVIT是一种多模态生成模型,将视觉和语言表达在统一的表示中,使用视觉分词器将非语言图像转换为LLM可读的离散标记。在预训练的网上规模图像-文本语料库上,LaVIT具有卓越的多模态理解能力,在下游任务上的性能超过现有模型。
完成下面两步后,将自动完成登录并继续当前操作。