小红花·文摘

新模型“显式稀疏Transformer”通过选择最相关的片段来改进全局上下文的注意力集中度，表现优越，且训练和测试时间显著减少。适用于自然语言处理和计算机视觉任务。