小红花·文摘

探索OpenAI的GPT-03 Mini对技术的影响

DEV Community ·

本研究提出了一种分数连接方法，解决了深度网络训练中超连接的高内存访问成本问题。通过将隐藏状态划分为多个部分，分数连接在大规模语言任务上显著优于传统的残差连接。

Fractional Connections: Partial Expansion of Hyperconnections

BriefGPT - AI 论文速递 ·

本研究提出“可移植的奖励调优”（PRT）原则，以解决基础模型因知识过时而需频繁微调的问题。实验结果表明，基于PRT的模型在视觉和语言任务上具有与现有方法相当的准确性，同时降低了推理成本。

Portable Reward Tuning: Achieving Reusable Fine-tuning Across Different Pre-trained Models

BriefGPT - AI 论文速递 ·

BitNet a4.8：4位激活推动1位大语言模型达到最先进性能

DEV Community ·

本文探讨了transformers中的注意机制在视觉和语言任务中的应用，提出了稀疏注意力、混合专家架构和离散多模态语言模型等方法，以提高模型的可解释性和计算效率，推动多模态大型语言模型的发展。

混合变换器：一种稀疏且可扩展的多模态基础模型架构

BriefGPT - AI 论文速递 ·

一文看懂 OpenAI 最强模型 o1：怎么用好，为何翻车，对我们意味着什么

爱范儿 ·

本文研究了transformers中的注意机制在视觉和语言任务中的应用，提出了自相关自注意力（CSA）和稀疏注意力机制等改进方法，以提高模型的可解释性和计算效率。这些方法在语义分割、文本推理和视觉跟踪等任务中显著提升了性能。SPARC方法通过细粒度多模态表示改善了图像和文本的匹配效果。

SPARO：用于视觉的稳健和组合式 Transformer 编码的选择性注意力

BriefGPT - AI 论文速递 ·

本文介绍了改进的脉冲变压器（Spikformer）用于处理语言任务，并提出了两阶段知识蒸馏方法来训练它。通过从BERT对无标签文本进行知识蒸馏的预训练和再次从BERT进行微调，训练出的SpikeBERT模型在英文和中文文本分类任务上表现优于最先进的SNNs，甚至与BERT相当，并且能够降低能量消耗。

SpikeBERT: 从 BERT 进行两阶段知识蒸馏训练的语言 Spikformer

BriefGPT - AI 论文速递 ·