小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
从零开始构建图像描述生成变换器

本文介绍了构建图像描述生成模型的过程,该模型采用编码-解码架构,通过交叉注意力连接图像与文本。图像被分割成小块以生成特征,解码器生成描述。模型在Flickr8k数据集上训练,并通过随机采样提高泛化能力。尽管在简单场景中表现良好,但在复杂场景中仍存在困难。关键学习包括图像分块、交叉注意力的重要性和数据增强的影响。

从零开始构建图像描述生成变换器

Yi's blog
Yi's blog · 2026-01-30T18:00:00Z
基于向量量化的高效检索优化上下文语音识别

本文提出了一种基于向量量化的交叉注意力近似方法,利用神经上下文偏置提升语音识别模型的转录准确性。该方法通过高效的量化检索模块,从大型偏置目录中快速筛选相关条目,实现个人实体识别中的相对错误率降低71%,同时计算时间减少20%,内存使用降低85-95%。

基于向量量化的高效检索优化上下文语音识别

Apple Machine Learning Research
Apple Machine Learning Research · 2025-08-08T00:00:00Z

本研究提出了一种新训练目标,通过对语义表示施加约束,增强正样本对齐。同时,针对BERT模型的注意力沉没现象,提出交叉注意力结构,以提升CLS标签的注意力和池化质量。该方法在多个语义文本相似度任务中表现优异。

JTCSE: Joint Tensor Modal Constraints and Cross-Attention for Unsupervised Contrastive Learning of Sentence Embeddings

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-05T00:00:00Z

本研究解决了单层自注意力和交叉注意力机制的逼近能力不足,提出将单头注意力视为输入域划分机制,证明其能够逼近任意连续函数,并扩展至Lebesgue可积函数。

Attention Mechanisms, Maximum Affine Partitioning, and Universal Approximation

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-28T00:00:00Z

本研究提出了ProtDAT框架,解决了大型语言模型在蛋白质设计中多模态数据关系捕获不足的问题。通过多模态交叉注意力机制,ProtDAT有效整合蛋白质序列与文本信息,实验结果表明其在蛋白质序列生成方面表现优异,提升了设计的有效性与功能性。

ProtDAT: A Unified Framework for Designing Protein Sequences from Any Protein Text Description

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-05T00:00:00Z

本研究提出CALM方法,通过交叉注意力增强语言模型在金融领域的适应性,显著提升了模型在多数据集上的表现。

Enhancing Adaptability of Language Models in the Financial Domain through Model Augmentation

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-14T00:00:00Z

本文介绍了LayoutDiffusion扩散模型,解决了布局与图像融合的问题。通过Object-aware Cross Attention技术,提高了生成质量和可控性。此外,研究提出了基于区域感知的交叉注意力方法,增强了文本到三维生成的可控性,提升了用户对合成内容的交互控制。实验结果验证了这些方法在图像生成质量和复杂性上的优势。

构建场景:基于扩散的图像生成中的互动3D布局控制

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-27T00:00:00Z

本文介绍了一种新框架,旨在提升视觉语言模型的概念理解能力。实验表明,交叉注意力和新微调技术能有效改善模型在细粒度理解上的表现。此外,研究提出了基于属性的视觉问答方法,增强了多模态场景理解,为视觉语言模型的评估和改进提供了新的基准和方法。

评估大型视觉语言模型中的属性理解能力

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-25T00:00:00Z

最近研究表明,文本到图像扩散模型在生成高质量图像时存在记忆训练数据的问题,可能引发版权和隐私风险。本文探讨了交叉注意力机制与记忆现象的关系,并提出了一种后处理方法,通过剪枝特定子空间的权重来减轻记忆问题,同时保持生成图像的质量和模型的效率。此外,研究分析了影响记忆行为的因素,并提出了新的检测和解决方案。

在扩散模型中检测、解释和减轻记忆化

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-31T00:00:00Z

本文探讨了多模态视觉-语言模型(VLM)的能力,提出了用于形式验证的逻辑规范语言Con_spec,并通过实验验证了模型在概念理解方面的不足。研究发现交叉注意力可以提升理解能力,并提出了新的微调技术。此外,介绍了数据扩充方法和幻觉检测模型,以改善VLM在特定领域的表现和常识推理能力。

BACON:利用概念图强化虚拟生命模型以减少幻觉

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-03T00:00:00Z

本文提出了一种基于对偶句子级别的监督对比学习(PairSCL)方法,结合交叉注意力机制和对比学习目标,在多个自然语言推理(NLI)任务中取得了优异表现。同时,介绍了中国首个大规模NLI数据集,以推动中文自然语言理解(NLU)的研究进展。

应用基于制图的新课程学习方法于 RoNLI:首个罗马尼亚自然语言推理语料库

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-05-20T00:00:00Z

本文探讨了基于扩散模型的图像生成技术,提出了一种通过文本提示提取关键组件并生成复杂场景的方法。研究表明,该方法在图像保真度和文本对齐方面优于传统模型,能够处理多概念输入并生成一致的视觉表示。引入交叉注意力机制和人类反馈进一步提升了生成图像的质量和可控性。

密集斑点表示的组合式文本到图像生成

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-05-14T00:00:00Z

本文提出了一种基于层次结构的多模态讽刺检测方法,结合多头交叉注意力机制和图神经网络,以提升文本与图像的一致性。研究还引入了新的讽刺解释任务和数据集,实验证明该方法在讽刺检测中优于现有技术,显著提高了模型的鲁棒性和准确性。

CofiPara:一种用于大规模多模态模型的粗糙 - 精细范式的多模态讽刺目标识别方法

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-05-01T00:00:00Z

本文提出了一种低成本的文本到图像生成方法,通过微调预训练模型实现多概念生成。采用交叉注意力引导,分解多个概念,提升图像保真度和文本对齐度。实验结果表明,该方法在生成质量上优于现有模型,并有效去除不良概念,保持其他元素的完整性。

Espresso:文本到图像模型中的鲁棒概念过滤

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-30T00:00:00Z

该论文提出了一种基于生成对抗网络的图像生成方法,结合语义感知块和交叉注意力技术,显著提升了文本到图像生成的精确度和质量。实验结果表明,该方法在多个基准测试中表现优异,能够有效处理复杂场景和空间布局问题,生成与文本描述高度一致的图像。

TextCenGen:面向文本到图像生成的注意力导向的文本中心背景适应

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-18T00:00:00Z

本文提出了一种注意力调节方法,通过优化注意力图与文本提示的对齐,解决扩散模型中对某些令牌过度关注的问题。实验结果表明,该方法在多个数据集上优于其他基准,生成的图像更忠实于文本概念。此外,研究揭示了交叉注意力与记忆现象的关系,并提出了创新方法以检测和减轻记忆现象,确保生成图像质量。

文本到图像扩散模型中的交叉注意力使推理繁琐

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-03T00:00:00Z

本文介绍了一种文本本地化的文本到图像生成模型,旨在处理多概念输入图像。该模型通过交叉注意力引导方法有效分解多个概念并建立视觉表示。实验结果表明,该方法在图像保真度和文本对齐方面优于现有模型,且在生成单一和多概念图像时表现出色,具备较高的计算效能和记忆优势。

孤立扩散:多概念文本到图像生成的优化 —— 在自由训练中使用孤立扩散引导

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-03-25T00:00:00Z

该研究提出了一种文本本地化的文本到图像模型,通过交叉注意力引导方法建立目标概念的视觉表示与标识符令牌之间的连接。实验结果表明,该方法在图像保真度和图像文本对齐方面优于基准模型,并提高了单一概念和多概念生成的得分。该方法还能够生成与目标概念一致的交叉注意力映射。

文本定位:为主题驱动的文本到图像生成分解多概念图像

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-02-15T00:00:00Z

本文介绍了CenterFormer,一种基于中心点的变换网络,使用查询嵌入聚合中心候选点的特征向量,并通过交叉注意力融合多帧特征。在Waymo Open数据集上,CenterFormer在单个模型上取得了73.7%的验证集和75.6%的测试集mAPH,明显优于以前的CNN和transformer方法。

ConDaFormer:用于三维点云理解的局部结构增强的分解式 Transformer

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-12-18T00:00:00Z

本文提出了一种新的引导图像合成框架,通过约束优化问题解决领域偏移问题,并通过定义交叉注意力的对应关系,实现对不同绘制区域的语义控制。

扩散色彩:带文本引导的图像上色

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-12-07T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码