小红花·文摘

本研究提出了KunLunBaize-VoT-R1视频推理模型，旨在提高视频语言预训练的推理效率和多模态数据处理能力。该模型结合图像打包技术和专家自治架构，显著提升了视频推理的效率和准确性，实验结果显示其在多项测试中表现优异。