小红花·文摘 - 小红花技术领袖俱乐部

谷歌照片现在允许用户描述如何将图像转换为视频

谷歌照片现在允许用户描述如何将图像转换为视频

The Verge ·

ETVA：通过细粒度问题生成与回答评估文本到视频的对齐

ETVA：通过细粒度问题生成与回答评估文本到视频的对齐

Apple Machine Learning Research ·

释放你的内心艺术家：利用AI图像生成创造特定风格

释放你的内心艺术家：利用AI图像生成创造特定风格

DEV Community ·

如何使用Envato ImageGen创建AI图像

如何使用Envato ImageGen创建AI图像

Design Shack ·

刚刚，GPT-4o原生图像生成上线，P图、生图也就一嘴的事

刚刚，GPT-4o原生图像生成上线，P图、生图也就一嘴的事

机器之心 ·

本研究提出了一种pix2pix-zeroCon方法，旨在解决文本提示与参考图像内容保留不足的问题。通过补丁级对比损失，自动确定编辑方向，确保生成图像的内容和结构精准保留。实验结果表明，该方法在图像转换任务中优于现有模型。

Contrastive Learning Guided Latent Diffusion Model for Image-to-Image Translation

BriefGPT - AI 论文速递 ·

本研究提出了一种新颖的测试时间扩展(TTS)方法，以提高视频生成质量。通过增加推理时间的计算资源和采用有效的推理策略（如"树帧"方法），显著提升了基于文本提示的视频生成效果，展示了TTS在视频生成中的潜力。

Test-Time Scaling for Video Generation: Video-T1

BriefGPT - AI 论文速递 ·

Dfusion AI：人工智能驱动创意的下一次飞跃

Dfusion AI：人工智能驱动创意的下一次飞跃

DEV Community ·

YouTube将允许您在短视频中插入AI生成的视频片段

YouTube将允许您在短视频中插入AI生成的视频片段

The Verge ·

本研究提出了一种基于掩膜的运动轨迹框架，能够将静态图像转化为真实视频序列，有效解决了对象运动不准确和不一致的问题。该方法在多对象和高运动场景中展现了优异的时序一致性和文本提示忠实度。

Through-The-Mask: Mask-based Motion Trajectories for Image-to-Video Generation

BriefGPT - AI 论文速递 ·

AI系统在保留原始运动和构图的同时创建定制视频

AI系统在保留原始运动和构图的同时创建定制视频

DEV Community ·

本研究提出了PromptDresser模型，旨在解决虚拟试穿中对文本提示的使用不足。该模型通过根据文本描述编辑穿着方式，利用大规模多模态模型生成详细文本并调整修复遮罩，从而显著提升编辑的可控性和图像质量。

PromptDresser: Improving the Quality and Controllability of Virtual Try-On via Generative Textual Prompts and Prompt-aware Masks

BriefGPT - AI 论文速递 ·

OpenAI的AI视频生成器Sora今天正式上线

OpenAI的AI视频生成器Sora今天正式上线

The Verge ·

本文提出了一种无需训练的3D编辑方法，通过用户文本提示和粗略掩膜，实现快速、精确的单个形状编辑，确保编辑区域与原始输入无缝融合。

PrEditor3D: Fast and Accurate 3D Shape Editing

BriefGPT - AI 论文速递 ·

使用HTML、CSS和JavaScript的日月动画

使用HTML、CSS和JavaScript的日月动画

DEV Community ·

本研究提出了名为HeadSculpt的流程，通过文本提示生成和编辑高保真3D头像。该方法采用三维高斯模型和动态表示，优化了头像的几何和表情捕捉，显著提升了渲染效率和质量。实验结果表明，HeadSculpt在实时推理和细节表现上优于现有技术，推动了个性化头像的创建。

HeadGAP：通过可泛化的高斯先验实现少样本三维头像生成

BriefGPT - AI 论文速递 ·

本文介绍了一种新颖的三维生成方法“Consistent3D”，通过GSD框架和姿态相关性蒸馏采样（PCDS），显著提高了文本到三维生成的几何一致性和质量。研究还提出了分类器分数蒸馏（CSD）和稳定评分蒸馏（SSD）等新方法，优化了生成模型的性能，解决了3D模型准确性与文本提示之间的错位问题。实验结果表明，这些方法在生成高保真度和多样性的三维物体方面表现优异。

连接一致性蒸馏与分数蒸馏用于文本到 3D 生成

BriefGPT - AI 论文速递 ·

本文介绍了MVDream，一个多视图扩散模型，能够根据文本提示生成几何一致的多视图图像。该模型结合了大规模Web数据集的预训练图像扩散模型和3D资源，解决了现有2D-lifting方法中的3D一致性问题，提升了生成的稳定性，并可在少量样本下微调，实现个性化3D生成。

DreamStory: 基于 LLM 引导的多主题一致扩散的开放域故事可视化

BriefGPT - AI 论文速递 ·

稳定扩散项目：复活老照片

稳定扩散项目：复活老照片

MachineLearningMastery.com ·

该研究提出了一种多功能图像编辑框架，支持刚性和非刚性编辑，利用文本提示或参考图像引导。通过双路径注入方案和自注意机制，融合外观与结构信息，实验证明其在文本编辑和外观转换任务中表现优越。

LIPE：学习非刚性图像编辑的个性化身份先验

BriefGPT - AI 论文速递 ·