本文研究了扩散变换器(DiTs)在文本到图像生成中的效率,分析了架构选择和训练策略。结果表明,标准DiT在性能上与专门模型相当,但参数效率更高。通过层级参数共享策略,DiT-Air和DiT-Air-Lite在保持竞争力的同时,模型尺寸减少了66%。DiT-Air在GenEval和T2I CompBench上表现优异。
本文探讨了使用Qwen2.5-0.5B-Instruct模型结合MMLUPro、MELD和MATH数据集的任务。研究发现,格式奖励显著提升模型表现,而准确性奖励波动较大,表明模型仅模仿格式,未真正掌握思考能力。分析认为,可能是模型尺寸过小或奖励函数设置不当所致。
本文介绍了一种新的无线资源管理方法:低秩消息传递图神经网络(LR-MPGNN),通过低秩逼近技术减小了模型尺寸和参数个数。评估结果显示,LR-MPGNN模型的尺寸减小了60倍,参数个数减少了98%,并展示了良好的鲁棒性。
本文介绍了一种针对无线资源管理的新方法:低秩消息传递图神经网络(LR-MPGNN),该模型尺寸减小了60倍,参数个数减少了98%。在性能方面,LR-MPGNN模型表现出很好的鲁棒性,规范加权和速率仅降低了2%。
本文介绍了一种名为“Distilling step-by-step”的新机制,通过提取LLM rationales作为小型模型的附加监督来训练比LLM更小且表现更好的模型。该机制使用更少的标注/非标注训练样例实现更好的性能,并且使用明显更小的模型尺寸实现更好的性能。
ToolEyes是一个用于评估大型语言模型在真实场景中工具学习能力的系统。通过细致检查七个现实场景,分析了LLMs在工具学习中的五个关键方面。评估结果显示,LLMs对特定场景有偏好,工具学习认知能力有限。模型尺寸的扩大加剧了对工具学习的阻碍。这些发现对推动工具学习领域具有重要意义。
本文提出了一种新的可衡量的标准来评估自动补全模型架构,发现现有的单词级自动补全模型无法满足此标准。作者提出了一种有效的方法来提高WLAC性能,同时利用较小的模型尺寸。
本文提出了一种简化 NeRF 表示方法,使用容积渲染公式和空间映射提升点云渲染质量。同时,使用射线行进法对原始点云进行矫正,避免空间频率崩溃和邻域点干扰。该方法在点云渲染方面取得了最先进的性能,使用更小的模型尺寸优于之前的研究。
该研究提出了一种名为MMVP的双流视频预测框架,通过分离运动和外观信息,提高了视频预测的准确性和效率,并减小了模型尺寸。实验证明,MMVP在公共数据集上以小得多的模型尺寸显著优于现有系统。
完成下面两步后,将自动完成登录并继续当前操作。