小红花·文摘

本文深入探讨了Transformer模型中的查询（Q）、键（K）、值（V）机制。Q、K、V的分离设计使模型能够独立优化索引和内容，从而提升表达能力。通过softmax函数，模型实现了基于相似度的加权检索，促进信息的有效融合。文章还分析了Q/K/V的几何意义及其在自注意力中的应用，强调了缩放因子√d_k的重要性，以避免softmax饱和。

【Transformer 与注意力机制】13｜Q/K/V 三件套：把 Bahdanau 抽象成一个公式

土法炼钢兴趣小组的博客 ·

该文介绍了一种名为 Inner-IoU 损失函数的方法，通过辅助边界框计算 IoU 损失，加速了边界框回归过程，并提高了检测性能。该方法在不同数据集和检测器中引入缩放因子比例以控制辅助边界框的尺寸，经过模拟和比较实验证明了其有效性和普适性。

Inner-IoU：更有效的交并比损失函数与辅助边界框

BriefGPT - AI 论文速递 ·

TensorRT中的int8量化

李文举 ·