苹果推出了名为MGIE的AI模型,可通过自然语言指令进行图像编辑。Stylar AI是一款功能强大的图像生成和编辑工具。Google Imagen AI将文字转换为图像,改善基于图像的搜索。DALL.E 2是一款AI图像生成器软件。Vizard AI是一款帮助将长视频转换为短视频的工具,具有智能视频编辑和翻译功能。
本文通过众包研究比较了DALL.E 2和Stable Diffusion模型在生成普通名词图像时的全球表现。结果显示,对于没有特定国名的输入,生成的图像在美国和印度表现最好。当指定国家名称后,两个模型的表现有所提升,但仍有许多国家得分较低,需要未来模型更加包容。此外,研究还探讨了在不进行用户研究的情况下量化生成图像在地理上的代表性的可行性。
DALLE2是一个扩散模型,能够直接修改和编辑图像,利用CLIP模型进行文本与图像特征的对比学习。通过两阶段训练生成高保真图像,采用U-NET结构和改进的DDPM预测噪声,结合分类器引导生成更优质图像。
完成下面两步后,将自动完成登录并继续当前操作。