小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
谷歌照片现在允许用户描述如何将图像转换为视频

谷歌照片更新了图像转视频功能,用户可以通过文本提示描述运动、风格或效果。此功能仅限18岁及以上用户,支持更精确的视频生成,并默认添加音频,同时简化了通过Gmail分享照片和视频的过程。

谷歌照片现在允许用户描述如何将图像转换为视频

The Verge
The Verge · 2026-01-27T12:44:01Z
ETVA:通过细粒度问题生成与回答评估文本到视频的对齐

本文提出了一种新方法ETVA,用于精确评估文本提示与生成视频之间的语义对齐。ETVA通过生成细粒度问题并进行回答,克服了现有指标的局限性。实验结果表明,ETVA与人类判断的相关性显著高于现有指标,并构建了一个包含2000个提示和12000个问题的基准,推动了文本到视频生成的发展。

ETVA:通过细粒度问题生成与回答评估文本到视频的对齐

Apple Machine Learning Research
Apple Machine Learning Research · 2025-06-30T00:00:00Z
释放你的内心艺术家:利用AI图像生成创造特定风格

AI图像生成为艺术家提供了新的创作工具。通过精准的文本提示,用户可以生成特定风格的图像,关键在于艺术媒介、风格、光线和构图等元素。结合参考图像和风格转移技术,可以提升视觉效果。生成过程需反复调整,并关注版权和伦理问题,掌握这些技巧可开启新的创作可能性。

释放你的内心艺术家:利用AI图像生成创造特定风格

DEV Community
DEV Community · 2025-05-18T09:18:50Z
如何使用Envato ImageGen创建AI图像

Envato ImageGen是一款AI图像生成工具,用户可通过文本提示快速生成艺术作品。支持多种图像比例和“增强提示”功能,帮助生成更详细的图像。用户需注册Envato Elements账户,免费生成5张图像,之后需订阅。通过详细提示和风格关键词,用户可获得更佳效果。

如何使用Envato ImageGen创建AI图像

Design Shack
Design Shack · 2025-04-04T08:00:50Z
刚刚,GPT-4o原生图像生成上线,P图、生图也就一嘴的事

OpenAI推出的GPT-4o具备原生图像生成能力,能够根据文本提示生成高质量图像,支持多种输入形式。尽管存在裁剪和多语言渲染等局限性,GPT-4o仍为用户提供了强大的图像创作工具,适合多种用户群体。

刚刚,GPT-4o原生图像生成上线,P图、生图也就一嘴的事

机器之心
机器之心 · 2025-03-26T02:24:58Z

本研究提出了一种pix2pix-zeroCon方法,旨在解决文本提示与参考图像内容保留不足的问题。通过补丁级对比损失,自动确定编辑方向,确保生成图像的内容和结构精准保留。实验结果表明,该方法在图像转换任务中优于现有模型。

Contrastive Learning Guided Latent Diffusion Model for Image-to-Image Translation

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-26T00:00:00Z

本研究提出了一种新颖的测试时间扩展(TTS)方法,以提高视频生成质量。通过增加推理时间的计算资源和采用有效的推理策略(如"树帧"方法),显著提升了基于文本提示的视频生成效果,展示了TTS在视频生成中的潜力。

Test-Time Scaling for Video Generation: Video-T1

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-24T00:00:00Z
Dfusion AI:人工智能驱动创意的下一次飞跃

Dfusion AI是一款强大的图像生成工具,能够将文本提示转化为高质量的视觉作品,适合艺术家和设计师使用。用户只需输入描述和选择风格,即可快速生成图像,提升创作效率。随着AI技术的发展,Dfusion AI将推动创意工作的未来。

Dfusion AI:人工智能驱动创意的下一次飞跃

DEV Community
DEV Community · 2025-02-23T12:34:50Z
YouTube将允许您在短视频中插入AI生成的视频片段

YouTube推出新的生成AI视频功能,允许创作者在制作短视频时生成独立片段。该功能与Google的Veo 2视频模型集成,旨在提升生成速度和真实感。用户可通过短视频相机访问,输入文本提示。目前在美国、加拿大、澳大利亚和新西兰推出,未来将扩展至更多地区。

YouTube将允许您在短视频中插入AI生成的视频片段

The Verge
The Verge · 2025-02-13T15:07:24Z
AI系统在保留原始运动和构图的同时创建定制视频

CustomCrafter是一种新的视频生成方法,能够在保留原始运动和构图的基础上,结合用户提供的文本提示与现有视频,生成反映文本的新视频。

AI系统在保留原始运动和构图的同时创建定制视频

DEV Community
DEV Community · 2024-12-30T09:31:44Z

本研究通过引入TextRefiner,解决了视觉语言模型在提示学习中的粗粒度问题,提升了文本提示的精细化,从而显著提高了基准测试表现。

文本优化器:将内部视觉特征作为视觉语言模型提示调优的高效优化器

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-11T00:00:00Z

本文提出了一种无需训练的3D编辑方法,通过用户文本提示和粗略掩膜,实现快速、精确的单个形状编辑,确保编辑区域与原始输入无缝融合。

PrEditor3D:快速精确的3D形状编辑

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-09T00:00:00Z
使用HTML、CSS和JavaScript的日月动画

本文介绍了一种网页设计,允许用户通过按钮在日间和夜间模式之间切换,界面会根据模式变化调整背景和图像效果,并包含动画效果和文本提示。

使用HTML、CSS和JavaScript的日月动画

DEV Community
DEV Community · 2024-10-28T11:55:41Z

该研究提出了一种无需LoRA的风格化图像生成方法,利用文本提示和风格参考图像,通过StyleAdapter模型有效解决了生成内容的可控性和保真度问题,能够高效生成高质量图像。

超越色彩与线条:基于协调语义的零样本风格特定图像变换

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-24T00:00:00Z

本研究提出了TP-GMOT框架,解决了通用多对象跟踪中的先验知识依赖性和类别限制的问题。该方法引入了TP-OD和MAC-SORT两种新组件,提高了未见目标类别下的跟踪能力。研究结果表明,该方法具有较强的通用性和效果。

基于运动-外观成本的文本提示跟踪通用多对象的TP-GMOT

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-04T00:00:00Z

ART·V是一个高效的自回归视频生成框架,使用扩散模型逐帧生成视频,并通过简化连续帧之间的运动来避免建模复杂的远程运动,同时保留预训练图像扩散模型的高保真生成能力。通过结合文本、图像等多种提示,ART·V可以生成任意长度的视频,具有高度的多功能性和灵活性。通过引入掩蔽扩散模型和使用初始帧作为条件,ART·V进一步提升了生成一致性和生成的视觉质量,能够在短时间内生成带有自然运动、丰富细节和高美感的视频,并支持多个文本提示组合成长视频的应用。

CogVideoX:基于文本的扩散模型与专家变换器

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-12T00:00:00Z
稳定扩散项目:复活老照片

本文介绍了修复老照片并使其焕发新生的方法,包括超分辨率处理、ControlNet模型重建、文本提示扩散过程、ControlNet精细调整和Stable Diffusion填补空白。

稳定扩散项目:复活老照片

MachineLearningMastery.com
MachineLearningMastery.com · 2024-06-30T21:04:45Z
谷歌DeepMind新AI工具结合视频像素和文本提示生成配乐

Google DeepMind发布了一款新的AI工具,用于生成视频配乐。该工具结合了文本提示和视频内容,可以创建具有戏剧音效、逼真音效或与视频角色和氛围相匹配的音频。用户可以在DeepMind的网站上查看示例。该工具可以生成无限数量的配乐,使用户能够获得无尽的音频选择。DeepMind的AI工具通过对包含声音详细描述和口语对话转录的视频、音频和注释进行训练,能够将音频事件与视觉场景匹配。

谷歌DeepMind新AI工具结合视频像素和文本提示生成配乐

The Verge
The Verge · 2024-06-18T13:23:48Z

人工智能在癌症诊断方面有潜力,研究提出了一种从图像特征构建文本提示的方法,改善了性能。合成数据有效地训练人工智能模型,病理学家难以检测到合成图像。

一种基于专家驱动的组织切片图像数据生成流程

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-03T00:00:00Z

本论文提出了一个初步实现的对话管理器,将视觉能力整合到对话代理中,以增强基于文本的提示与实时视觉输入。该系统的提示工程结合了对图像的对话与摘要,平衡了上下文保留和计算效率。通过实现视觉使能的对话系统,展望了无缝融合文本和视觉模态的丰富、上下文感知的对话。

G-VOILA: 日常情境下的凝视辅助信息查询

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-05-13T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码