小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

腾讯开源的混元图像模型2.1支持2K高清生图,具备强大的生成效果和复杂语义理解能力,迅速成为Hugging Face全球第三热门,适用于多种视觉创作需求,助力设计师高效创作。

腾讯混元发布并开源图像模型2.1,支持原生2K生图

量子位
量子位 · 2025-09-10T08:53:50Z

DiT模型受到质疑,网友认为其数学和形式上存在错误,甚至怀疑是否使用了Transformer。作者谢赛宁回应称,科学进步需要发现模型的不足,强调实证方法的重要性,并反驳质疑,指出Tread模型与DiT无关,且DiT在生成效果上仍具优势。

DiT突遭怒喷,谢赛宁淡定回应

量子位
量子位 · 2025-08-20T08:05:07Z

全景视频是虚拟现实的重要组成部分,提升用户体验。尽管制作需要专业设备,但生成式视频模型的进展降低了创作门槛。北京大学推出的PanoWan框架,通过纬度感知采样等技术,解决了全景视频生成中的畸变问题,并构建了包含1.3万视频的PanoVid数据集,提升了生成效果和编辑能力。

基于 1.3 万个视频片段,北京大学施柏鑫团队联合贝式计算提出全景视频生成框架 PanoWan,兼顾零样本视频编辑

HyperAI超神经
HyperAI超神经 · 2025-07-28T06:23:53Z

何恺明的新论文提出了一种名为Dispersive Loss的正则化方法,旨在提升扩散模型的生成效果。该方法无需预训练和数据增强,通过正则化中间表示来增强特征分散性,简化实现并提高生成质量。实验结果显示,Dispersive Loss在多种模型上显著改善生成效果,具有广泛的应用潜力。

何恺明新作:给扩散模型加正则化,无需预训练无需数据增强,超简单实现性能提升

量子位
量子位 · 2025-06-12T09:19:59Z

腾讯推出混元图像2.0,实现边说边画的实时图像生成,响应速度达到毫秒级。用户可通过文字或手绘输入,系统即时生成图像。该模型具备更大参数和高效图像编解码器,提升了生成效果和真实感。

鹅厂放大招,混元图像2.0「边说边画」:描述完,图也生成好了

量子位
量子位 · 2025-05-16T06:13:16Z

本文提出了AlignRAG框架,旨在解决检索增强生成(RAG)模型中推理轨迹与检索证据不对齐的问题。AlignRAG通过迭代的批评驱动对齐步骤,性能优于现有方法,并能无缝集成到RAG管道中,提升检索意识生成的效果。

AlignRAG: An Adaptable Framework for Resolving Misalignments in Retrieval-Aware Reasoning of RAG

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-21T00:00:00Z
AI模型生成对比

本文探讨了将AI设计产品融入艺术设计工作流的可能性,比较了Stable Diffusion、Midjourney和腾讯的混元3D等多种图像生成模型。不同模型在生成速度、质量和理解能力上存在显著差异,腾讯的混元3D表现较好,生成效果和速度均令人满意。整体来看,图像生成技术已相对成熟,但仍需优化。

AI模型生成对比

elmagnifico
elmagnifico · 2025-04-01T16:00:00Z
TokenBridge:弥合可视化生成中连续和离散token表示法之间的差距

自回归视觉生成模型通过离散和连续token实现高质量图像合成。TokenBridge采用新颖的训练后量化技术,显著提升生成效果,且在参数更少的情况下优于传统模型,为未来视觉合成技术提供新思路。

TokenBridge:弥合可视化生成中连续和离散token表示法之间的差距

实时互动网
实时互动网 · 2025-03-28T02:12:01Z

本文提出了一种基于多模态大型语言模型的广告图像生成方法,旨在提升点击率(CTR)。通过预训练和强化学习,生成与商品特征相符且吸引用户的广告图像。实验结果表明,该方法在CTR预测和生成效果上优于现有技术。

【前瞻技术布局】京东零售广告创意:引入场域目标的创意图片生成

京东科技开发者
京东科技开发者 · 2025-03-18T05:42:04Z
扩散模型=流匹配?谷歌DeepMind博客深度详解这种惊人的等价性

扩散模型与流匹配本质上等价,尽管实现方式不同。扩散模型通过去噪声逐步恢复数据,而流匹配通过可逆变换映射分布。研究表明,两者可灵活结合,利用不同采样策略提升生成效果。

扩散模型=流匹配?谷歌DeepMind博客深度详解这种惊人的等价性

机器之心
机器之心 · 2024-12-13T05:33:50Z

本研究提出了一种新方法,通过结合音频特征与视觉信息,生成自然声音对应的视觉场景图像。该方法在VEGAS和VGGSound数据集上显著提高了生成效果,展示了对生成过程的控制能力,证明了其适用性和通用性。

Sound to Vision: Generating Diverse Visual Images through Cross-Modal Latent Alignment

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-09T00:00:00Z

本研究探讨了大语言模型在检索增强生成中的文档检索顺序的影响,提出使用似然性作为评估工具,证明其与回答准确性相关,并提出优化提示选择与构建的方法,以提升生成效果。

利用似然性作为检索增强生成的性能评估工具

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-12T00:00:00Z

本研究提出DomainGallery方法,旨在解决文本到图像模型在特定领域生成图像的局限性。通过少样本微调和多种技术,显著提升生成效果,实验结果表明其在多个领域的应用中表现优越。

领域画廊:通过属性中心微调实现的少样本领域驱动图像生成

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-07T00:00:00Z

本研究提出了AutoRAG框架,能够自动识别最佳的检索增强生成(RAG)模块组合,从而显著提升特定数据集的生成效果,实验数据可在GitHub上获取。

AutoRAG:检索增强生成管道优化的自动化框架

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-28T00:00:00Z

当前语言模型在生成长文本时常忽视早期上下文信息,可能是因为预训练中学到的注意力先验知识。为此,提出了一种“注意力排序”方法,通过对注意力进行排序来提升生成效果。这一方法在解码时对文档进行排序,改善生成效果,并指出使用现有语言模型进行检索增强生成的挑战。

语言模型中的注意力沉没现象:实证研究

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-14T00:00:00Z

本文提出了一种名为DDM的扩散模型,通过分解扩散过程来提高生成效果和速度,同时提出了一个新的DPM训练目标。实验结果表明DDM在更少的函数评估方面优于以前的DPM。

超越 U:打造更快速、更轻量级的扩散模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-31T00:00:00Z

本文介绍了一种名为DDM的扩散模型,通过简化扩散过程来提高生成效果和速度。它使用显式转移概率近似图像分布,并通过标准维纳过程控制噪声路径。文章还提出了一个新的DPM训练目标,能够预测噪声和图像成分。实验结果表明,DDM在函数评估方面优于以前的DPM。

利用自适应动量采样器提升扩散模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-08-23T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码