小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
美团发布原生多模态 LongCat-Next:当视觉和语音成为AI的母语

LongCat团队推出了新AI模型LongCat-Next,旨在统一处理图像、声音和文本等多模态信息。通过离散原生自回归架构DiNA和视觉分词器dNaViT,该模型实现了不同模态的统一建模,增强了理解与生成的协同能力。研究表明,离散化能更好地理解物理世界,且不损失信息。该模型已开源,欢迎开发者参与。

美团发布原生多模态 LongCat-Next:当视觉和语音成为AI的母语

实时互动网
实时互动网 · 2026-03-27T02:56:42Z
在线教程丨GLM-Image基于自回归+扩散解码器混合架构,精准理解指令写对文字

智谱与华为联合开源了新一代图像生成模型GLM-Image,该模型采用自回归与扩散解码器混合架构,提升了文字生成的准确性,支持多种比例的图像生成,成本低至0.1元,适合商业应用。用户可在HyperAI官网体验该模型。

在线教程丨GLM-Image基于自回归+扩散解码器混合架构,精准理解指令写对文字

HyperAI超神经
HyperAI超神经 · 2026-01-20T05:35:43Z
基于变换器的自回归流在连续空间中的灵活语言建模

本文介绍了一种新的语言建模框架TarFlowLM,该框架利用基于变换器的自回归正则化流,将离散标记空间转变为连续潜在空间。此方法增强了模型的灵活性,支持双向上下文捕捉和分块生成,能够处理复杂的潜在依赖关系。实验结果表明,该框架在语言建模基准上表现优异,展现了其灵活的建模能力。

基于变换器的自回归流在连续空间中的灵活语言建模

Apple Machine Learning Research
Apple Machine Learning Research · 2025-09-22T00:00:00Z

HybridVLA是一种新型视觉-语言-动作模型,结合自回归和扩散策略,旨在提升机器人在动态环境中的操作能力。通过协同训练,该模型有效整合两种生成方法的优势,提高了动作预测的准确性和鲁棒性,并在多样化数据集上展现出优越的性能。

HybridVLA——让单一LLM同时具备扩散和自回归动作预测能力:训练时既扩散也回归,但推理时则扩散

结构之法 算法之道
结构之法 算法之道 · 2025-06-07T16:22:52Z
Dimple:一种用于高效可控文本生成的离散扩散多模态语言模型

近年来,扩散模型在自然语言处理中的应用引起关注,发展出离散扩散语言模型(DLM)。DLM通过去噪生成文本,支持并行解码,提高生成速度和结构控制。新加坡国立大学的Dimple模型结合视觉编码器与扩散语言模型,采用自回归与扩散的两阶段训练,性能优于同规模自回归模型。

Dimple:一种用于高效可控文本生成的离散扩散多模态语言模型

实时互动网
实时互动网 · 2025-05-30T02:06:46Z

本研究提出了一种无训练的水印框架IndexMark,针对自回归图像生成模型中的水印技术不足,通过匹配和替换相似索引嵌入水印,确保图像质量,同时展现出良好的鲁棒性和验证精度。

Watermarking Technology for Untrained Image Generation

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-20T00:00:00Z

MAGI-1是一种新型世界模型,通过自回归预测视频片段序列生成视频。该模型在图像到视频任务中表现优异,具备高时间一致性和可扩展性,适合实时和内存高效部署。

MAGI-1: Large-Scale Autoregressive Video Generation

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-19T00:00:00Z
MAGI-1:大规模自回归视频生成

MAGI-1是由Sand AI开发的先进视频生成模型,采用自回归方式生成高质量视频,并支持因果时间建模。其基于Transformer的变分自编码器实现了高效压缩和快速解码,适用于内容创作和游戏开发等多个领域。MAGI-1在视频生成质量上超越其他开源模型,展现出显著的创新和性能优势。

MAGI-1:大规模自回归视频生成

DEV Community
DEV Community · 2025-04-22T11:57:48Z
DART:用于可扩展文本到图像生成的去噪自回归变换器

DART是一种基于变换器的模型,结合自回归和扩散,克服了传统扩散模型的马尔可夫特性限制,能够更有效地进行图像建模。该模型在统一框架中同时处理文本和图像数据,展现出在生成任务中的竞争力,为扩散模型提供了高效替代方案。

DART:用于可扩展文本到图像生成的去噪自回归变换器

Apple Machine Learning Research
Apple Machine Learning Research · 2025-04-16T00:00:00Z
OpenAI发布了改进版的GPT-4o图像生成能力

OpenAI发布了新版本的GPT-4o,具备原生图像生成能力,能够修改上传的图像或根据提示创建新图像,并保持多轮一致性。该模型直接处理图像输出,使用自回归生成方法,在文本渲染和提示遵循方面表现优异。同时,OpenAI建立了工具以识别生成的图像,防止违反内容政策的图像生成。

OpenAI发布了改进版的GPT-4o图像生成能力

InfoQ
InfoQ · 2025-04-01T13:00:00Z
清华朱军团队 | 从点云到高保真三维网格:DeepMesh突破自回归生成瓶颈

清华大学朱军团队提出的DeepMesh方法,通过自回归生成框架,显著提升了三维网格生成能力,支持生成高达3万个面片,并结合几何质量与人类评价,优化了生成结果的结构与美观性,展现出在影视和游戏领域的应用潜力。

清华朱军团队 | 从点云到高保真三维网格:DeepMesh突破自回归生成瓶颈

机器之心
机器之心 · 2025-03-31T05:00:26Z
GPT-4o图像生成的秘密,OpenAI 没说,网友已经拼出真相?

自OpenAI发布GPT-4o图像生成功能以来,网络上对此进行了广泛讨论。尽管OpenAI未透露技术细节,研究者们推测其可能结合了自回归与扩散生成或采用纯自回归生成方式。部分研究者认为,GPT-4o通过逐步生成图像,展现出与传统模型不同的特性,具体实现仍待OpenAI公布。

GPT-4o图像生成的秘密,OpenAI 没说,网友已经拼出真相?

机器之心
机器之心 · 2025-03-29T12:15:06Z
Uni-3DAR用自回归统一微观与宏观的3D世界,性能超扩散模型256%,推理快21.8倍

Uni-3DAR是一个新型3D结构生成与理解框架,采用自回归方法统一微观与宏观3D建模。该模型通过层次化token化和掩码预测策略,显著提升了生成与理解任务的性能,尤其在分子生成和晶体结构预测中表现突出,展现了在科学研究中的广泛应用潜力。

Uni-3DAR用自回归统一微观与宏观的3D世界,性能超扩散模型256%,推理快21.8倍

机器之心
机器之心 · 2025-03-25T04:41:57Z

本研究提出了一种粗到细的标记预测方法,解决自回归图像生成中的量化误差问题。实验结果显示,Inception分数平均提升59分,且采样速度更快。

Enhancing Autoregressive Image Generation through Coarse-to-Fine Label Prediction

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-20T00:00:00Z
逐字生成非最优?试试逐「块」生成!Block Diffusion打通了自回归与扩散

OpenAI 的块离散去噪扩散语言模型(BD3-LMs)结合了扩散与自回归模型,解决了生成任意长度序列的局限性。研究表明,BD3-LMs 在多个基准测试中表现出最佳困惑度,能够高效生成可变长度文档,克服了传统扩散模型的缺陷。

逐字生成非最优?试试逐「块」生成!Block Diffusion打通了自回归与扩散

机器之心
机器之心 · 2025-03-15T16:08:00Z
FlexTok:将图像重采样为可变长度的1D标记序列

FlexTok是一种新型图像标记器,将2D图像转换为可变长度的1D标记序列,提高了自回归图像生成的效率。与传统的2D网格标记方法相比,FlexTok能够根据图像复杂性灵活调整标记数量,从而生成高质量图像。实验结果表明,FlexTok在生成任务中表现优异,以更少的标记数实现了先进水平。

FlexTok:将图像重采样为可变长度的1D标记序列

Apple Machine Learning Research
Apple Machine Learning Research · 2025-02-19T00:00:00Z

本研究提出Jakiro方法,通过专家组合生成多样化预测,解决模型容量有限导致的准确性不足问题。引入混合推理策略,结合自回归与并行解码,提高了预测的准确性和速度,推动了推测解码研究的进展。

Jakiro: Enhancing Inference Decoding through Expert Ensemble

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-10T00:00:00Z

本研究分析了变压器在时间序列建模中的能力,提出了新模型MOIRAI,能够自动拟合自回归模型,展示了变压器的广泛适用性和潜力。

变压器及其作为时间序列基础模型的角色

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-05T00:00:00Z

本研究首次探讨链式思维推理在自回归图像生成中的应用,提出三种技术显著提升生成性能,尤其是通过潜力评估奖励模型使生成结果提高24%。

Can We Generate Images with Chain-of-Thought? A Step-by-Step Validation and Enhancement of Image Generation

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-23T00:00:00Z

picoGPT是一个简洁的GPT-2实现,旨在帮助学习者理解GPT的工作原理。它展示了文本生成的核心机制和模型推理过程,用户可以通过运行picoGPT逐步深入理解其架构和关键组件,但不包括训练部分。核心思想包括自回归生成和Transformer架构。

60 行 NumPy 代码带你学习GPT - 蝈蝈俊

蝈蝈俊
蝈蝈俊 · 2025-01-10T02:45:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码