小红花·文摘 - 小红花技术领袖俱乐部

稳定扩散模型在视觉上下文学习中表现优异

稳定扩散模型在视觉上下文学习中表现优异

Apple Machine Learning Research ·

本文通过考虑自适应度量标准，如Shapley值，探讨了不同的块重要性度量标准，并将分析从完整的块扩展到单个自注意力和前馈层。结果显示，自注意力层更容易修剪，甚至可以删除多达33%的自注意层而不会对Mistral 7b的MMLU性能造成任何降低。通过训练轻量级的加性偏差或低秩线性适配器来模拟修剪的层的性能恢复，避免了初始块的性能下降。这种模拟更新的性能恢复要么是竞争性的，要么是优于基于学习的技术。

深入探究语言模型的深度修剪

BriefGPT - AI 论文速递 ·

本研究提出了一种利用GLCM的多尺度特征和可微分GLCM的损失函数，并引入了自注意力层，以提高基于GANs的低剂量CT去噪算法的性能。实验结果表明，该方法相比其他损失函数表现更好，且结果在三种不同GAN架构下保持一致。

基于 GAN 的 CT 去噪的多尺度纹理损失

BriefGPT - AI 论文速递 ·

深入解析随机 Transformer [译]

深入解析随机 Transformer [译]

宝玉的分享 ·

本文介绍了Transformer模型的底层架构和功能，包括注意力机制、嵌入表示层、自注意力层、前馈层、残差连接和层归一化等。文章还提供了基于Transformer的编码器和解码器的实现代码，并展望了GPT无监督预训练、有监督微调和基于HuggingFace的预训练语言模型实践。

大语言模型底层架构丨带你认识Transformer

华为云官方博客 ·

本文介绍了一种名为门控位置自注意力的机制，它结合了卷积神经网络的空间学习和自注意力层的位置不变性。作者使用这种机制构建了混合卷积 - 自注意力神经网络 ConViT，并在 ImageNet 数据集上进行了实验，结果表明该网络在图像分类任务上表现出色，具有更高的样本效率和对定位特征的更好注意力。

CNN 还是 ViT？透过卷积再探视觉 Transformer

BriefGPT - AI 论文速递 ·