小红花·文摘

Apple Machine Learning Research ·

本研究提出了一种新的混合查找专家架构（MoLE），旨在解决混合专家模型在推理时对大量专家的依赖问题。MoLE通过重参数化专家为查找表，提高了通信和显存效率。实验结果表明，MoLE的推理速度与稠密模型相当，且显著快于传统的混合专家模型，同时保持了性能水平。

BriefGPT - AI 论文速递 ·

本文提出了一种新的重参数化垂直注意融合模块（RVAFM），旨在提高手写段落文本识别的效率。该模块在训练时采用多分支结构，推理时转换为单分支，最终在IAM测试集上实现了4.44%的字符错误率和14.37%的单词错误率，同时推理速度也有所提升。

BriefGPT - AI 论文速递 ·