小红花·文摘

中国第一、全球第二！HiDream-O1-Image-1.5 登顶文生图榜单，超越谷歌、英伟达

量子位 ·

本研究提出了一种结合大语言模型与图像生成模型的语义进化框架，旨在解决模型对特定语义概念的敏感性问题，识别影响模型表现的敏感语义，并验证了该方法的有效性。

Blind Spot Navigation: Evolutionary Discovery of Sensitive Semantic Concepts in Large Visual Language Models

BriefGPT - AI 论文速递 ·

本研究提出了一种视觉引导解码方法，利用大型语言模型生成文本提示，以指导图像生成模型。该方法通过CLIP得分确保提示与用户视觉概念一致，提升了提示生成的可解释性和灵活性。实验结果表明，该方法在生成可理解且相关的提示方面优于现有技术，增强了文本到图像模型的互动可控性。

Visually Guided Decoding: Gradient-Free Hard Prompt Inversion with Language Models

BriefGPT - AI 论文速递 ·

🧠 图像之战：OpenAI vs Grok — 谁是真正的视觉天才？

DEV Community ·

本文介绍了多种图像生成模型的进展，包括MaskGIT、AutoNAT和现代化的VQGAN。研究表明，基于标记预测的方法在效率和图像质量上具有优势，尤其在高分辨率图像生成中表现突出。这些模型在ImageNet数据集上取得了优异的结果，推动了图像生成领域的创新。

ENAT：重新思考基于令牌的图像合成中的时空交互

BriefGPT - AI 论文速递 ·

Flux.1 入门必知：硬件、环境、模型

碎言博客 ·

本文研究了图像生成模型的现状与进展，提出了一种统一语言界面，将计算机视觉任务转化为文本到图像生成问题。通过使用大规模语言模型和InstructPix2Pix架构，创建了多模态训练数据集，提升了模型在视觉任务中的表现和泛化能力。同时，探讨了基于Transformer的扩散模型在图像和视频生成中的应用，推动了计算机视觉领域的创新。

OmniGen：统一图像生成

BriefGPT - AI 论文速递 ·

谷歌正在推出Gemini平台的新功能，包括Gems，允许用户在任何主题上创建定制的AI专家。Gems可用于编码、职业建议、头脑风暴和写作等任务。谷歌还推出了Imagen 3，这是一个升级的图像生成模型，可以用几个词语创建高质量的图像。Imagen 3将提供多种风格和语言。谷歌还在努力生成人物图像，并为部分用户提供早期访问版本。该公司专注于用户控制和改善用户体验。

Gemini 新功能：定制化 Gems 和升级版 Imagen 3 图像生成

The Keyword ·

本文探讨了生成图像质量评估指标，指出FID和IS存在偏差，提出了新的CMMD和SID指标，以更可靠地评估图像生成模型的性能。研究表明，这些新指标能有效提高评估准确性，推动图像生成技术的发展。

球面图像的几何保真度

BriefGPT - AI 论文速递 ·

人工智能AI图像生成模型SD发布新许可证，年收入低于100万美元可免费商业使用。模型托管平台Civitai暂停发布基于Stability AI的模型，担心版权问题。Stability AI发布新许可证，提供社区非商业版和社区商业版两种许可证，年收入超过100万美元的企业需升级到企业版许可证。

AI图像生成模型SD公布新许可证年收入100万美元以内免费商业性使用

蓝点网 ·

本文探讨了利用人类反馈（RLHF）改进语言模型和图像生成模型的研究。研究表明，通过细化反馈，可以有效减少生成虚假和无关内容的问题，并显著提升模型的准确性和性能。同时，文章还讨论了偏好得分的主观性及其对模型评估的影响。

纷扰的细粒度反馈：超越赞 / 踩 —— 面向文本到图像生成的挑战

BriefGPT - AI 论文速递 ·

该研究利用fMRI技术和图像生成模型，提出了一种基于大脑神经活动解码图像文字的方法。实验结果显示，该方法在神经科学领域具有广泛应用潜力，尤其是在提高视觉信息编码准确性方面，揭示了视觉区域与语言处理之间的关系，并为脑机接口的开发提供了新思路。

MindSemantix: 用大脑 - 语言模型解读大脑视觉经历

BriefGPT - AI 论文速递 ·

Adobe推出新版Photoshop应用，集成了Adobe Firefly Image 3图像生成模型，可创建质量更高、种类更多和细节更丰富的图像。新功能包括参考图像、纯文本生成图像、创建背景、生成相似图像和细节支持微调图像。新版还包含AI图像编辑功能。Adobe提供Firefly Image 3的测试版。

Adobe推出新版Photoshop 集成Firefly Image 3图像生成AI模型

蓝点网 ·

本文提出了一种无需更改的图像源头归属方法，通过对图像生成模型进行输入反向工程，区分生成图像与真实图像。同时，研究探讨了CLIP在零样本学习中的应用，提出了基于多模态表示学习的ZOC方法，提升了未知分类检测性能。此外，结合大型语言模型和视觉语言模型，增强了对稀有背景的识别能力。

基于模型无关的少样本示例的生成图像起源归因

BriefGPT - AI 论文速递 ·

Context Diffusion是一种基于扩散的框架，用于学习图像生成模型。该框架能够处理生成图像质量和保真度降低的问题，并适用于少量示例的情况。实验证明，Context Diffusion在领域内和领域外的任务中表现出色，提高了图像质量和保真度。

跨模态语境扩散模型的文本导向视觉生成与编辑

BriefGPT - AI 论文速递 ·

Stability AI推出新图像生成AI模型，力求保持领先地位

The Verge ·

通过分析378个伦理问题的19个主题领域，综述了生成人工智能伦理问题的分类和排名。重点关注大型语言模型和图像生成模型，提供了关于公平性、安全性、有害内容、幻觉、隐私、交互风险、社会影响等伦理争论的全面概述。同时讨论了结果、评估了文献中的不平衡现象，并探讨了未经证实的风险场景。

生成式人工智能伦理的映射：一项全面的范围审查

BriefGPT - AI 论文速递 ·

利用大型语言模型 (LLM) 从文本提示中提取关键组件，包括前景对象的边界框坐标、各个对象的详细文本描述和简洁的背景上下文。通过两个阶段的操作，将这些组件布局到图像生成模型中。生成的全局场景经过迭代细化，以确保与文本描述的一致性。经用户研究验证，我们的方法在从错综复杂的文本输入中生成连贯详细场景方面比传统扩散模型更好。

掌握文本到图像扩散：多模态 LLM 的重新字幕、规划和生成

BriefGPT - AI 论文速递 ·

Context Diffusion是一种基于扩散的框架，用于学习图像生成模型。它能够处理无提示的图像生成问题，并适用于少量示例的情况。实验证明，Context Diffusion在领域内和领域外的任务中表现出色，提高了图像质量和保真度。

改善基于扩散的图像合成

BriefGPT - AI 论文速递 ·

利用大型语言模型 (LLM) 从文本提示中提取关键组件，包括前景对象的边界框坐标、各个对象的详细文本描述和简洁的背景上下文。通过两个阶段的操作，将这些组件布局到图像生成模型中，初步生成全局场景后，使用迭代细化方案对内容进行评估和修正，以确保与文本描述的一致性。经由用户研究进一步验证了我们的方法在从错综复杂的文本输入中生成连贯详细场景方面的功效。

VideoDrafter: 内容一致的多场景视频生成与 LLM

BriefGPT - AI 论文速递 ·

中国第一、全球第二！HiDream-O1-Image-1.5 登顶文生图榜单，超越谷歌、英伟达

Blind Spot Navigation: Evolutionary Discovery of Sensitive Semantic Concepts in Large Visual Language Models

Visually Guided Decoding: Gradient-Free Hard Prompt Inversion with Language Models

🧠 图像之战：OpenAI vs Grok — 谁是真正的视觉天才？

ENAT：重新思考基于令牌的图像合成中的时空交互

Flux.1 入门必知：硬件、环境、模型

OmniGen：统一图像生成

Gemini 新功能：定制化 Gems 和升级版 Imagen 3 图像生成

球面图像的几何保真度

AI图像生成模型SD公布新许可证 年收入100万美元以内免费商业性使用

纷扰的细粒度反馈：超越赞 / 踩 —— 面向文本到图像生成的挑战

MindSemantix: 用大脑 - 语言模型解读大脑视觉经历

Adobe推出新版Photoshop 集成Firefly Image 3图像生成AI模型

基于模型无关的少样本示例的生成图像起源归因

跨模态语境扩散模型的文本导向视觉生成与编辑

Stability AI推出新图像生成AI模型，力求保持领先地位

生成式人工智能伦理的映射：一项全面的范围审查

掌握文本到图像扩散：多模态 LLM 的重新字幕、规划和生成

改善基于扩散的图像合成

VideoDrafter: 内容一致的多场景视频生成与 LLM

AI图像生成模型SD公布新许可证年收入100万美元以内免费商业性使用