小红花·文摘

谷歌照片将对话编辑功能扩展至更多安卓手机

The Verge ·

谷歌照片推出了对话式编辑功能，用户可通过语音或文本描述进行编辑。点击“帮助我编辑”，Photos会根据描述进行调整，利用Gemini技术简化创意编辑。

安卓用户现在可以在谷歌照片中使用对话式编辑功能。

The Keyword ·

本研究提出了一种名为SynCity的方法，旨在根据文本描述生成高质量的3D场景。该方法结合了预训练3D生成模型的几何精确性与2D图像生成器的艺术多样性，具有广泛的应用潜力。

SynCity：无训练生成3D世界

BriefGPT - AI 论文速递 ·

本研究提出CausalCLIPSeg框架，旨在解决医学图像分割中的文本描述指示问题。该方法通过因果干预模块实现视觉与文本线索的对齐，显著提升了分割效果，实验结果表明其性能达到最先进水平。

Causal CLIP Segmentation: Unlocking the Potential of CLIP in Medical Image Segmentation through Causal Intervention

BriefGPT - AI 论文速递 ·

本研究提出ExDDV数据集，旨在帮助识别深伪视频。该数据集包含约5400个真实与深伪视频，并提供文本描述和点击标注，以解释伪造特征。研究强调文本和点击监督在开发可解释模型中的重要性。

ExDDV: A New Dataset for Explainable Deepfake Detection in Video

BriefGPT - AI 论文速递 ·

本研究提出了一种基于文本的运动合成方案，旨在解决高质量运动数据集不足和多样物体骨骼模板处理困难的问题。通过增强Truebones Zoo数据集并使用文本描述进行注释，实验表明该方法能够生成高保真运动，为多样物体的运动合成奠定基础。

如何移动你的龙：大型词汇物体的文本到运动合成

BriefGPT - AI 论文速递 ·

本研究提出了一种全自动化的管道，将文本描述转化为高保真3D模型。该方法结合文本到图像生成、图像处理和深度学习技术，能够生成语义和几何精确的3D模型，具有在增强现实、虚拟现实和数字内容创建等领域的重要应用潜力。

基于生成的方法进行高保真3D重建从文本数据

BriefGPT - AI 论文速递 ·

Wan-Video在Replicate上的Wan-2.1-1.3b模型初学者指南

DEV Community ·

Google DeepMind 发布 PaliGemma 2 Mix：针对多种视觉语言任务进行微调的新型指令视觉语言模型

实时互动网 ·

本文提出了一种综合框架，通过单幅图像、多视角图像和文本描述生成高质量的3D形状和纹理，显著提升了生成的质量和多样性。

Pandora3D: A Comprehensive Framework for High-Quality 3D Shape and Texture Generation

BriefGPT - AI 论文速递 ·

本研究提出了一种增强大型语言模型（LLM）的方法，通过结合可视化文本描述与快照，提取基本特征到结构化文本文件中，从而提升模型对科学数据可视化的响应能力，具有广泛的应用潜力。

将大型语言模型与文本和视觉数据相结合以实现全球地理空间数据的对话式可视化

BriefGPT - AI 论文速递 ·

本研究提出了一种图像描述增强的CLIP适配器（IDEA），旨在解决少样本图像分类中的信息互补不足问题。通过结合视觉特征与文本描述，IDEA在多个任务中超越了现有模型，并引入了可训练的IDEA（T-IDEA），在11个数据集上取得了领先成果。

IDEA：图像描述增强的CLIP适配器

BriefGPT - AI 论文速递 ·

人工智能通过革命性的网格生成系统从文本中创建超逼真的3D模型

DEV Community ·

本研究引入Humanoid-X数据集，利用超过2000万个与文本描述对应的人形机器人姿态，解决了人形机器人可扩展学习的挑战。研究表明，该方法显著提高了机器人在文本基础上的控制泛化能力，为实际应用奠定了基础。

Learning for Universal Humanoid Pose Control from Massive Human Videos

BriefGPT - AI 论文速递 ·

使用Bylo.ai生成惊艳的风景图像

DEV Community ·

本研究提出FLORA数据集，包含4,330对时尚服装与文本描述，旨在解决服装设计中缺乏专业数据集的问题。通过在FLORA上细调生成模型，可以显著提升从文本生成时尚设计图像的能力，推动时尚设计与AI的融合。

Dressing the Imagination: An AI Dataset for Translating Text into Fashion Outfits and a Novel KAN Adapter for Enhanced Feature Adaptation

BriefGPT - AI 论文速递 ·

MTFusion是一种新方法，通过结合图像数据和详细文本描述，从单张图像重建高保真度的3D模型，尤其在表面细节方面表现优越。

谷歌照片将对话编辑功能扩展至更多安卓手机

安卓用户现在可以在谷歌照片中使用对话式编辑功能。

SynCity：无训练生成3D世界

Causal CLIP Segmentation: Unlocking the Potential of CLIP in Medical Image Segmentation through Causal Intervention

ExDDV: A New Dataset for Explainable Deepfake Detection in Video

如何移动你的龙：大型词汇物体的文本到运动合成

基于生成的方法进行高保真3D重建从文本数据

Wan-Video在Replicate上的Wan-2.1-1.3b模型初学者指南

Google DeepMind 发布 PaliGemma 2 Mix：针对多种视觉语言任务进行微调的新型指令视觉语言模型

Pandora3D: A Comprehensive Framework for High-Quality 3D Shape and Texture Generation

将大型语言模型与文本和视觉数据相结合以实现全球地理空间数据的对话式可视化

IDEA：图像描述增强的CLIP适配器

人工智能通过革命性的网格生成系统从文本中创建超逼真的3D模型

Learning for Universal Humanoid Pose Control from Massive Human Videos

使用Bylo.ai生成惊艳的风景图像

Dressing the Imagination: An AI Dataset for Translating Text into Fashion Outfits and a Novel KAN Adapter for Enhanced Feature Adaptation

MTFusion：利用多词文本反转从单张图像重建任意3D物体

Extracting Text Descriptions from Continuous Prompt Representations

领域无关的时间序列数据描述文本自动生成

TEDRA: Text-based Editing of Dynamic and Photorealistic Characters