The Verge ·

苹果推出AI图像工具，通过描述进行编辑

💡 原文英文，约400词，阅读约需2分钟。

📝

内容提要

苹果研究人员发布了一种新模型，允许用户用简单的语言描述他们想要在照片中改变的内容，而无需触碰照片编辑软件。该模型名为MGIE，由苹果与加州大学圣塔芭芭拉分校合作开发。它可以通过文本提示对图像进行裁剪、调整大小、翻转和添加滤镜。MGIE结合了两种多模态语言模型的用途，学习如何解释用户的提示并“想象”编辑后的效果。苹果已在GitHub上提供了MGIE的下载，并在Hugging Face Spaces上发布了一个网络演示。

🎯

关键要点

苹果研究人员发布了MGIE模型，允许用户用简单语言描述照片编辑内容。
MGIE模型与加州大学圣塔芭芭拉分校合作开发，可以通过文本提示进行裁剪、调整大小、翻转和添加滤镜。
MGIE结合了多模态语言模型的两种用途，学习解释用户提示并“想象”编辑效果。
用户只需输入想要改变的内容，例如“让它更健康”会添加蔬菜配料。
研究表明，MGIE能够有效提高性能，同时保持竞争效率。
苹果在GitHub上提供MGIE下载，并在Hugging Face Spaces上发布了网络演示。
一些图像生成平台如OpenAI的DALL-E 3也能进行简单的照片编辑，Adobe的Firefly AI模型也提供生成填充功能。

🏷️

继续阅读

知名AI编码工具Windsurf即将彻底消失将更名和合并到Devin桌面版中
知名AI编码工具Windsurf将于2025年彻底消失，其品牌和产品将合并到Cognition AI的Devin桌面版中。经历多次收购后，Windsurf...
字节开源统一框架Bernini：给DiT配个“大模型军师”，AI视频编辑先理解再动手
字节推出了开源视频生成与编辑框架Bernini，强调“先理解再生成”。该框架利用多模态大模型进行语义理解，并通过扩散模型实现高质量渲染，解决视频编辑中的一...
单月营收破10亿，字节跳动终于等来自己的“AI印钞机”
字节跳动的Seedance 2.0视频生成模型自发布以来迅速走红，单月营收突破10亿元，推动火山引擎MaaS业务目标上调至150亿元。该模型在短剧行业渗透...
2026年实时音视频如何重塑”一起冥想”体验：纯净人声、空间音效与AI引导的技术落地
“一起冥想”是一款多人在线同步冥想应用，基于ZEGO的低延迟音视频技术，提供清晰的人声、沉浸式音效和实时互动。用户可通过AI降噪和3D音效在虚拟空间中体验...
Elly推出AI招聘助手，将对话式招聘和外联整合到一个招聘系统中
AI原生招聘平台Elly推出了AI Sourcer，旨在通过集成对话式人才搜寻和拓展工作流程，减少招聘过程中的人工工作量。该系统整合了电子邮件和Linke...
微软发布Surface RTX SPARK开发工作站利用英伟达芯片提供本地AI算力
微软推出了 Microsoft Surface RTX SPARK 开发工作站，搭载英伟达芯片，支持本地运行 AI 模型。该工作站配备 20 核心 CPU...

苹果推出AI图像工具，通过描述进行编辑

内容提要

关键要点

标签

继续阅读