小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

OmniGen2在图像生成领域取得突破,通过独立解码路径提升多模态生成能力,解决了现有模型的局限性。该模型无需重新适配,保留文本生成能力,支持多种生成任务。

OmniGen2 多模态推理×自我纠正双引擎,引领图像生成新范式;95 万分类标签!TreeOfLife-200M 解锁物种认知新维度

HyperAI超神经
HyperAI超神经 · 2025-07-09T03:11:00Z

本研究提出了一种轻量级验证方法LiLaVe,旨在降低大语言模型验证器的计算开销和资源消耗。LiLaVe通过提取基础LLM的隐藏状态中的正确性信号,显著提升生成任务的准确性和效率,适用于推理密集型应用。

Lightweight Latent Verifiers for Efficient Meta-Generation Strategies

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-23T00:00:00Z

本文提出了一种新方法Fwd2Bot,用于大型视觉语言模型(LVLM)中视觉令牌的高效压缩。该方法通过双向前传训练,实现了几乎无损的压缩效果,显著提升了生成任务的压缩率,并在图像检索与组合性任务上达到了新的最先进性能。

Fwd2Bot: LVLM Visual Token Compression with Bidirectional Bottleneck

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-27T00:00:00Z

本研究提出Fùxì基准,旨在评估语言模型在古汉语文本理解与生成中的能力。基准涵盖21个多样化任务,平衡理解与生成任务,设计特殊评估指标,以揭示古汉语处理中的文化理解和格式遵循挑战。

Fùxì:评估语言模型在古汉语文本理解与生成中的基准

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-20T00:00:00Z

本研究探讨了扩散概率模型在生成任务中的分布不匹配问题,并提出通过分布鲁棒优化(DRO)来解决。结果显示,对抗训练(AT)显著提高了模型的鲁棒性和生成性能。

Improved Diffusion-based Generative Model with Enhanced Adversarial Robustness

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-24T00:00:00Z

本研究提出了一种基于图表的多模态检索增强生成(MRAG)任务,针对现有基准在简单图像-文本互动方面的局限性,引入新的评估框架CHARGE,通过结构化关键点提取和跨模态验证,建立全面的图表基础MRAG评估基准。

通过基于图表的文档问答生成框架对多模态RAG进行基准测试

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-20T00:00:00Z
FlexTok:将图像重采样为可变长度的1D标记序列

FlexTok是一种新型图像标记器,将2D图像转换为可变长度的1D标记序列,提高了自回归图像生成的效率。与传统的2D网格标记方法相比,FlexTok能够根据图像复杂性灵活调整标记数量,从而生成高质量图像。实验结果表明,FlexTok在生成任务中表现优异,以更少的标记数实现了先进水平。

FlexTok:将图像重采样为可变长度的1D标记序列

Apple Machine Learning Research
Apple Machine Learning Research · 2025-02-19T00:00:00Z

本研究提出了MAT-Steer框架,通过针对性干预多个属性,解决了现有推理干预方法在多属性冲突中的不足,显著提升了语言模型在问答和生成任务中的表现。

Multi-Attribute Steering of Language Models via Targeted Intervention

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-18T00:00:00Z
如何在本地安装DeepSeek Janus Pro 7B?

Janus-Pro是基于DeepSeek-LLM-7B构建的多模态框架,旨在统一理解与生成任务。通过分离视觉编码路径,解决了视觉理解与生成的冲突,性能超越传统模型,适用于多种应用,成为下一代视觉语言模型的有力竞争者。

如何在本地安装DeepSeek Janus Pro 7B?

DEV Community
DEV Community · 2025-01-28T14:14:56Z

港大黄超教授团队提出的GraphAgent框架,通过多智能体协作,融合图数据与文本信息,显著提升预测与生成任务的性能。在8B参数下,该框架优于70B大模型,尤其在论文评审中有效预测录取可能性,展现出良好的零样本学习和跨域泛化能力。

AI预测论文能不能中,8B超越70B大模型,港大发布图文融合多智能体GraphAgent

量子位
量子位 · 2025-01-15T08:15:11Z

本研究提出了LongProc基准,旨在解决现有长上下文语言模型在长生成任务中的一致性不足,展示了其局限性及改进潜力。

LongProc: Benchmarking Long Context Language Models in Long Program Generation

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-09T00:00:00Z

本研究提出SCOPE框架,优化长上下文生成中的键值缓存,提升预填充和解码阶段的性能,显著改善长输出生成任务的效果。

SCOPE: Optimizing Key-Value Cache Compression in Long Context Generation

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-18T00:00:00Z

本研究提出了大规模视觉扩散变换器(LaVin-DiT),旨在提升视觉模型在生成任务中的效率和性能,并在多个任务中实现显著的提升与可扩展性。

大规模视觉扩散变换器 (LaVin-DiT)

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-18T00:00:00Z
Make U-Nets Great Again!北大&华为提出扩散架构U-DiT,六分之一算力即可超越DiT

AIxiv专栏促进学术交流,报道超过2000篇内容。研究者提出基于U-Net的U-DiT架构,结合下采样自注意力机制,显著降低算力需求并提升生成效果。U-DiT在多个生成任务中表现优异,已被NeurIPS 2024接收。

Make U-Nets Great Again!北大&华为提出扩散架构U-DiT,六分之一算力即可超越DiT

机器之心
机器之心 · 2024-11-15T05:14:57Z

本文提出了一种无训练的流扩散求解器,解决了流扩散模型在生成任务中因常微分方程求解器速度慢导致的效率低下问题。该方法通过利用先前步骤的结果,减少函数评估次数,从而显著提高生成速度和质量。实验结果验证了其在多个数据集上的有效性。

Leveraging Previous Steps: A Training-free Fast Solver for Flow Diffusion

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-12T00:00:00Z

本文探讨了参数化量子电路(PQC)在机器学习中的应用,证明其在生成任务中优于经典神经网络。研究表明,量子机器学习在数据处理上具有显著优势,但在图像分类等任务中仍需进一步优化。同时强调了量子计算与经典方法结合的潜力。

一种量子计算模型的表达能力:基于一比特的确定性量子计算

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-05T00:00:00Z

本研究提出了一种创新方法,将双靶点药物设计视为生成任务,以解决药物耐药性问题。通过利用预训练的单靶点模型知识,算法在零样本情况下成功适应双靶点场景,为抗癌治疗提供了新方案。

Reprogramming Pretrained Target-Specific Diffusion Models for Dual-Target Drug Design

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-28T00:00:00Z

差分Transformer通过新的注意力机制解决传统Transformer的注意力分散问题。它通过计算并相减两个注意力图,去除冗余和噪声,增强注意力的稀疏性和集中性。这提高了长文本建模和上下文学习能力,减少生成任务中的幻觉现象,适用于文本摘要、问答系统和生成任务。

差分Transformer解析

DEV Community
DEV Community · 2024-10-15T15:12:48Z
一种模型统治一切:MonoFormer统一扩散和自回归生成

研究论文介绍了MonoFormer,这是一种Transformer模型,能同时处理扩散和自回归生成任务。它通过统一训练简化设计,适用于图像、文本和音频生成。实验显示MonoFormer在多项测试中表现优异且高效灵活,但未详细探讨大规模任务表现及训练稳定性。MonoFormer为生成式AI模型发展提供了新方向。

一种模型统治一切:MonoFormer统一扩散和自回归生成

DEV Community
DEV Community · 2024-09-28T07:03:42Z

本文介绍了MUGEN数据集的构建及其在多模态理解和生成任务中的应用,包括游戏评论生成、在线流媒体技能评估和口语处理技术的发展。研究展示了多模态机器学习在视频字幕、对话模型和讽刺推理等领域的进展,强调了新模型和基准的有效性。

Game-MUG:多模态定向游戏情境理解与评论生成数据集

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-30T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码