小红花·文摘 - 小红花技术领袖俱乐部

本研究探讨了多模态生成模型的统一框架，解决了不同维度独立处理的问题。通过整合2D、视频、3D和4D生成，推动人工智能的发展，更精准地模拟现实世界。

Simulating the Real World: A Unified Survey of Multimodal Generative Models

BriefGPT - AI 论文速递 ·

本研究探讨了味觉与听觉的关系，提出了一种新型多模态生成模型，能够将味觉信息转化为音乐。实验结果表明，经过微调的生成音乐模型（MusicGEN）更能准确反映味觉描述，展示了人工智能在声音与味觉交互中的潜力。

Multimodal Symphony: Integrating Taste and Sound through Generative Artificial Intelligence

BriefGPT - AI 论文速递 ·

本研究提出了一种模块化动态解决方案，旨在解决多模态生成模型在大规模非策划数据集上训练时可能产生的有害输出问题。该方法通过安全上下文嵌入和双重重建过程，在不损害学习流形结构的情况下生成更安全的图像，并在基准测试中取得了先进的结果。

Safety Without Semantic Disruptions: Editing-free Safe Image Generation via Context-preserving Dual Latent Reconstruction

BriefGPT - AI 论文速递 ·

本研究提出了一种评估框架，分析多模态生成模型在公平性和可靠性方面的表现，揭示不可靠行为的触发因素，并评估生成内容的多样性与公平性，为检测模型偏见奠定基础。

Fairness, Diversity, and Reliability of Text-to-Image Generation Models

BriefGPT - AI 论文速递 ·

本研究探讨了多模态生成模型中的越狱攻击及其防御措施，填补了安全机制的文献空白，分析了攻击与防御策略的关系，强调了安全部署的重要性。

Jailbreak Attacks and Defenses in Multimodal Generative Models: A Review

BriefGPT - AI 论文速递 ·

本文提出了一种结合文本和音频的多模态生成模型，用于自动生成音乐视频。该模型通过音频和文本嵌入实现视频的时间一致性，展示了较高的视觉质量和语义多样性。同时，研究引入了新的评估标准，以验证生成视频与输入音频的对齐性，推动了音频到视频生成技术的发展。

从文本和视频中生成声音

BriefGPT - AI 论文速递 ·

本文提出了一种基于核熵新颖性得分的多模态生成模型新颖性评估方法，展示了其在检测新颖模式和比较生成模型方面的有效性。同时，探讨了核方法在机器学习中的应用及其在分子设计和数据集压缩任务中的潜力。

迈向可扩展的无参考生成模型评估

BriefGPT - AI 论文速递 ·

本文讨论了多模态生成模型的学习标准，介绍了混合专家多模态变分自编码器（MMVAE）和多模态蒙版自动编码器（UniM$^2$AE），并展示了它们在图像-语言数据集上的应用效果。同时，提出了基于变分自编码器的多模态学习方法和自监督学习模型，强调了在多模态数据处理中的性能提升。

多视图自编码器教程

BriefGPT - AI 论文速递 ·

本文介绍了学习多模态生成模型的四个判定标准，并提出了一种混合专家多模态变分自编码器（MMVAE），用于学习不同模态的生成模型。该模型在图像-语言数据集上展示了其实现四个标准的能力，包括质量和数量两方面的定性和定量分析。

基于多模态变分自编码器的音频 - 视觉分割

BriefGPT - AI 论文速递 ·

LaVIT是一种多模态生成模型，将视觉和语言表达在统一的表示中，使用视觉分词器将非语言图像转换为LLM可读的离散标记。在预训练的网上规模图像-文本语料库上，LaVIT具有卓越的多模态理解能力，在下游任务上的性能超过现有模型。

MiniGPT-5：基于生成 Vokens 的交叉视觉与语言生成

BriefGPT - AI 论文速递 ·