小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

腾讯开源的混元图像模型2.1支持2K高清生图,具备强大的生成效果和复杂语义理解能力,迅速成为Hugging Face全球第三热门,适用于多种视觉创作需求,助力设计师高效创作。

腾讯混元发布并开源图像模型2.1,支持原生2K生图

量子位
量子位 · 2025-09-10T08:53:50Z

DiT模型受到质疑,网友认为其数学和形式上存在错误,甚至怀疑是否使用了Transformer。作者谢赛宁回应称,科学进步需要发现模型的不足,强调实证方法的重要性,并反驳质疑,指出Tread模型与DiT无关,且DiT在生成效果上仍具优势。

DiT突遭怒喷,谢赛宁淡定回应

量子位
量子位 · 2025-08-20T08:05:07Z

全景视频是虚拟现实的重要组成部分,提升用户体验。尽管制作需要专业设备,但生成式视频模型的进展降低了创作门槛。北京大学推出的PanoWan框架,通过纬度感知采样等技术,解决了全景视频生成中的畸变问题,并构建了包含1.3万视频的PanoVid数据集,提升了生成效果和编辑能力。

基于 1.3 万个视频片段,北京大学施柏鑫团队联合贝式计算提出全景视频生成框架 PanoWan,兼顾零样本视频编辑

HyperAI超神经
HyperAI超神经 · 2025-07-28T06:23:53Z

何恺明的新论文提出了一种名为Dispersive Loss的正则化方法,旨在提升扩散模型的生成效果。该方法无需预训练和数据增强,通过正则化中间表示来增强特征分散性,简化实现并提高生成质量。实验结果显示,Dispersive Loss在多种模型上显著改善生成效果,具有广泛的应用潜力。

何恺明新作:给扩散模型加正则化,无需预训练无需数据增强,超简单实现性能提升

量子位
量子位 · 2025-06-12T09:19:59Z

腾讯推出混元图像2.0,实现边说边画的实时图像生成,响应速度达到毫秒级。用户可通过文字或手绘输入,系统即时生成图像。该模型具备更大参数和高效图像编解码器,提升了生成效果和真实感。

鹅厂放大招,混元图像2.0「边说边画」:描述完,图也生成好了

量子位
量子位 · 2025-05-16T06:13:16Z

本文提出了AlignRAG框架,旨在解决检索增强生成(RAG)模型中推理轨迹与检索证据不对齐的问题。AlignRAG通过迭代的批评驱动对齐步骤,性能优于现有方法,并能无缝集成到RAG管道中,提升检索意识生成的效果。

AlignRAG: An Adaptable Framework for Resolving Misalignments in Retrieval-Aware Reasoning of RAG

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-21T00:00:00Z
AI模型生成对比

本文探讨了将AI设计产品融入艺术设计工作流的可能性,比较了Stable Diffusion、Midjourney和腾讯的混元3D等多种图像生成模型。不同模型在生成速度、质量和理解能力上存在显著差异,腾讯的混元3D表现较好,生成效果和速度均令人满意。整体来看,图像生成技术已相对成熟,但仍需优化。

AI模型生成对比

elmagnifico
elmagnifico · 2025-04-01T16:00:00Z
TokenBridge:弥合可视化生成中连续和离散token表示法之间的差距

自回归视觉生成模型通过离散和连续token实现高质量图像合成。TokenBridge采用新颖的训练后量化技术,显著提升生成效果,且在参数更少的情况下优于传统模型,为未来视觉合成技术提供新思路。

TokenBridge:弥合可视化生成中连续和离散token表示法之间的差距

实时互动网
实时互动网 · 2025-03-28T02:12:01Z

本文提出了一种基于多模态大型语言模型的广告图像生成方法,旨在提升点击率(CTR)。通过预训练和强化学习,生成与商品特征相符且吸引用户的广告图像。实验结果表明,该方法在CTR预测和生成效果上优于现有技术。

【前瞻技术布局】京东零售广告创意:引入场域目标的创意图片生成

京东科技开发者
京东科技开发者 · 2025-03-18T05:42:04Z
扩散模型=流匹配?谷歌DeepMind博客深度详解这种惊人的等价性

扩散模型与流匹配本质上等价,尽管实现方式不同。扩散模型通过去噪声逐步恢复数据,而流匹配通过可逆变换映射分布。研究表明,两者可灵活结合,利用不同采样策略提升生成效果。

扩散模型=流匹配?谷歌DeepMind博客深度详解这种惊人的等价性

机器之心
机器之心 · 2024-12-13T05:33:50Z

本研究提出了一种新方法,通过结合音频特征与视觉信息,生成自然声音对应的视觉场景图像。该方法在VEGAS和VGGSound数据集上显著提高了生成效果,展示了对生成过程的控制能力,证明了其适用性和通用性。

Sound to Vision: Generating Diverse Visual Images through Cross-Modal Latent Alignment

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-09T00:00:00Z

本研究探讨了大语言模型在检索增强生成中的文档检索顺序的影响,提出使用似然性作为评估工具,证明其与回答准确性相关,并提出优化提示选择与构建的方法,以提升生成效果。

利用似然性作为检索增强生成的性能评估工具

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-12T00:00:00Z

本研究提出了AutoRAG框架,能够自动识别最佳的检索增强生成(RAG)模块组合,从而显著提升特定数据集的生成效果,实验数据可在GitHub上获取。

AutoRAG: An Automated Framework for Optimizing Retrieval-Augmented Generation Pipelines

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-28T00:00:00Z

本研究提出ClusterGAN,通过混合一热编码和连续变量的潜变量进行聚类,结合特定损失函数和逆网络训练,展示了GAN在潜空间中有效保留类别间插值的能力。同时,研究探讨了GAN潜在空间的可解释性和控制方法,提出了无监督技术和基于几何的优化策略,以提升生成效果。

使用填空间向量量化的无监督GAN潜在空间全景解释

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-27T00:00:00Z

本文提出了多种创新的扩散模型训练框架和策略,如Patch Diffusion、DDM和SFERD,旨在提升生成效果和训练效率。通过引入条件分数函数、时间步骤调度和动量衰减等方法,显著降低计算成本并提高图像质量,为扩散模型的实际应用提供了新的视角和解决方案。

解耦再合并:提升扩散模型训练效果

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-09T00:00:00Z

本研究探讨了手势表示维度对3D口语手势生成的影响。结果表明,直接生成3D手势的效果优于先生成2D再转换为3D,强调了手势表示维度的重要性。

2D or Not 2D: How Does the Dimensionality of Gesture Representation Affect 3D Co-Speech Gesture Generation?

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-16T00:00:00Z

本文提出了多种新方法以提升无监督图像分割和生成效果,包括基于槽的注意力机制、自我训练方法和跨图像对象级引导。这些方法在多个数据集上表现优异,尤其在处理复杂图像时,显著提高了分割精度和生成质量。

分布迁移下基于目标中心学习的自举分割基础模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-29T00:00:00Z

本研究分析了检索增强生成(RAG)对大型语言模型(LLMs)的影响,提出了新的框架和评估方法,强调外部知识库整合对提高检索精度和答案准确性的重要性。研究发现特定文档类型能显著提升生成效果,并指出未来研究方向。

利用相关信息增益的改进 RAG 算法

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-16T00:00:00Z

本文提出了一种名为DDM的扩散模型,通过分解扩散过程来提高生成效果和速度,同时提出了一个新的DPM训练目标。实验结果表明DDM在更少的函数评估方面优于以前的DPM。

超越 U:打造更快速、更轻量级的扩散模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-31T00:00:00Z

本文介绍了一种名为DDM的扩散模型,通过简化扩散过程来提高生成效果和速度。它使用显式转移概率近似图像分布,并通过标准维纳过程控制噪声路径。文章还提出了一个新的DPM训练目标,能够预测噪声和图像成分。实验结果表明,DDM在函数评估方面优于以前的DPM。

利用自适应动量采样器提升扩散模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-08-23T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码