小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
谷歌照片将对话编辑功能扩展至更多安卓手机

谷歌照片的对话编辑功能现已扩展至更多安卓手机,用户可以通过文本或语音描述来编辑照片。该功能最初仅限于Pixel 10,现在在美国的合格安卓用户中推出,用户只需点击“帮助我编辑”即可使用,旨在简化编辑过程,提高效率。

谷歌照片将对话编辑功能扩展至更多安卓手机

The Verge
The Verge · 2025-09-23T17:00:00Z

谷歌照片推出了对话式编辑功能,用户可通过语音或文本描述进行编辑。点击“帮助我编辑”,Photos会根据描述进行调整,利用Gemini技术简化创意编辑。

安卓用户现在可以在谷歌照片中使用对话式编辑功能。

The Keyword
The Keyword · 2025-09-23T17:00:00Z

本研究提出了一种名为SynCity的方法,旨在根据文本描述生成高质量的3D场景。该方法结合了预训练3D生成模型的几何精确性与2D图像生成器的艺术多样性,具有广泛的应用潜力。

SynCity:无训练生成3D世界

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-20T00:00:00Z

本研究提出CausalCLIPSeg框架,旨在解决医学图像分割中的文本描述指示问题。该方法通过因果干预模块实现视觉与文本线索的对齐,显著提升了分割效果,实验结果表明其性能达到最先进水平。

Causal CLIP Segmentation: Unlocking the Potential of CLIP in Medical Image Segmentation through Causal Intervention

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-20T00:00:00Z

本研究提出ExDDV数据集,旨在帮助识别深伪视频。该数据集包含约5400个真实与深伪视频,并提供文本描述和点击标注,以解释伪造特征。研究强调文本和点击监督在开发可解释模型中的重要性。

ExDDV: A New Dataset for Explainable Deepfake Detection in Video

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-18T00:00:00Z

本研究提出了一种基于文本的运动合成方案,旨在解决高质量运动数据集不足和多样物体骨骼模板处理困难的问题。通过增强Truebones Zoo数据集并使用文本描述进行注释,实验表明该方法能够生成高保真运动,为多样物体的运动合成奠定基础。

如何移动你的龙:大型词汇物体的文本到运动合成

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-06T00:00:00Z

本研究提出了一种全自动化的管道,将文本描述转化为高保真3D模型。该方法结合文本到图像生成、图像处理和深度学习技术,能够生成语义和几何精确的3D模型,具有在增强现实、虚拟现实和数字内容创建等领域的重要应用潜力。

基于生成的方法进行高保真3D重建从文本数据

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-05T00:00:00Z
Wan-Video在Replicate上的Wan-2.1-1.3b模型初学者指南

Wan-2.1-1.3b是由Wan-Video维护的先进视频生成模型,能够根据文本描述生成5秒480p的视频。该模型采用扩散变换器架构,支持中英文输入,具备良好的视觉质量和运动连贯性,用户可调整参数以控制生成过程。

Wan-Video在Replicate上的Wan-2.1-1.3b模型初学者指南

DEV Community
DEV Community · 2025-03-01T07:28:10Z
Google DeepMind 发布 PaliGemma 2 Mix:针对多种视觉语言任务进行微调的新型指令视觉语言模型

谷歌推出的PaliGemma 2模型旨在提升视觉语言模型(VLM)在图像理解和文本描述方面的性能,支持多任务和不同分辨率,增强OCR和图像字幕应用。该模型兼容Transformers生态系统,开放权重便于集成,具备强大的文本提取和对象检测能力。

Google DeepMind 发布 PaliGemma 2 Mix:针对多种视觉语言任务进行微调的新型指令视觉语言模型

实时互动网
实时互动网 · 2025-02-21T02:57:16Z

本文提出了一种综合框架,通过单幅图像、多视角图像和文本描述生成高质量的3D形状和纹理,显著提升了生成的质量和多样性。

Pandora3D: A Comprehensive Framework for High-Quality 3D Shape and Texture Generation

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-20T00:00:00Z

本研究提出了一种增强大型语言模型(LLM)的方法,通过结合可视化文本描述与快照,提取基本特征到结构化文本文件中,从而提升模型对科学数据可视化的响应能力,具有广泛的应用潜力。

将大型语言模型与文本和视觉数据相结合以实现全球地理空间数据的对话式可视化

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-16T00:00:00Z

本研究提出了一种图像描述增强的CLIP适配器(IDEA),旨在解决少样本图像分类中的信息互补不足问题。通过结合视觉特征与文本描述,IDEA在多个任务中超越了现有模型,并引入了可训练的IDEA(T-IDEA),在11个数据集上取得了领先成果。

IDEA:图像描述增强的CLIP适配器

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-15T00:00:00Z
人工智能通过革命性的网格生成系统从文本中创建超逼真的3D模型

Meshtron是一种基于变换器的系统,能够根据文本描述生成高质量的3D网格模型。它采用自回归方法,利用沙漏变换器高效处理网格层次,生成复杂的网格,具有优越的网格质量和艺术表现力。

人工智能通过革命性的网格生成系统从文本中创建超逼真的3D模型

DEV Community
DEV Community · 2024-12-19T07:55:55Z

本研究引入Humanoid-X数据集,利用超过2000万个与文本描述对应的人形机器人姿态,解决了人形机器人可扩展学习的挑战。研究表明,该方法显著提高了机器人在文本基础上的控制泛化能力,为实际应用奠定了基础。

Learning for Universal Humanoid Pose Control from Massive Human Videos

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-18T00:00:00Z
使用Bylo.ai生成惊艳的风景图像

Bylo.ai是一个免费的AI工具,能快速将文本描述转换为高质量图像,适用于博客插图和社交媒体设计,支持在线使用和灵活定制。

使用Bylo.ai生成惊艳的风景图像

DEV Community
DEV Community · 2024-12-03T06:46:46Z

本研究提出FLORA数据集,包含4,330对时尚服装与文本描述,旨在解决服装设计中缺乏专业数据集的问题。通过在FLORA上细调生成模型,可以显著提升从文本生成时尚设计图像的能力,推动时尚设计与AI的融合。

Dressing the Imagination: An AI Dataset for Translating Text into Fashion Outfits and a Novel KAN Adapter for Enhanced Feature Adaptation

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-21T00:00:00Z

MTFusion是一种新方法,通过结合图像数据和详细文本描述,从单张图像重建高保真度的3D模型,尤其在表面细节方面表现优越。

MTFusion:利用多词文本反转从单张图像重建任意3D物体

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-19T00:00:00Z

本研究提出了一种新方法,通过在模型推理时提取文本描述来解释大型语言模型中的连续提示。使用InSPEcT方法,随着任务性能的提升,生成的任务描述更准确,为调试连续提示中的偏差提供了有效的解释方案。

Extracting Text Descriptions from Continuous Prompt Representations

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-15T00:00:00Z

本文探讨了基于大型语言模型的时间序列分析方法,包括时间序列预测、数据生成和文本描述生成。研究提出了AutoTimes和TGForecaster等模型,展示了在时间序列分类和预测中的优越性能,强调了文本信息与时间序列数据结合的重要性,并为未来研究提供了新基准。

领域无关的时间序列数据描述文本自动生成

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-25T00:00:00Z

介绍了MMIS数据集,包含近16万张图片,每张图片都有文本描述和音频记录,为场景生成和识别提供了丰富和多样的信息源。MMIS涵盖了各类室内空间,对多模态表示学习任务有贡献。

MMIS:室内场景视觉生成与识别的多模态数据集

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-08T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码