迷你猴:多尺度自适应裁剪减轻锯齿效应
原文中文,约300字,阅读约需1分钟。发表于: 。Mini-Monkey 是一种轻量级的多模态大语言模型,通过多尺度自适应裁剪策略(MSAC)和尺度压缩机制(SCM)来处理高分辨率图像,提高文档理解能力。
本文介绍了基于中心核对齐分析对卷积神经网络的模型进行全面分层调查的工作。研究结果表明,较低的层对输入图像尺度变化更敏感。提出了多尺度统一网络(MUSN),通过多尺度子网络、一个统一网络和尺度不变约束来提取多尺度输入的特征,并在深层进行统一,提取高层语义特征。实验结果表明,MUSN在模型性能和计算效率方面取得了显著的改进,特别是在多尺度情景下,准确率提高了44.53%,FLOPs降低了7.01-16.13%。