在ICLR 2025会议上,ChartMoE论文被录取为口头报告。该模型通过多阶段对齐任务增强图表理解能力,采用MoE结构,显著提升视觉表征和性能。研究表明,ChartMoE在通用和图表领域均表现优异,减少了对通用知识的遗忘。
多模态大语言模型在图表理解方面存在不足。CharXiv是一个评估套件,包含具有挑战性和多样化的图表。结果显示,最强专有模型的推理能力比最强开源模型更强,但都远远落后于人类表现。CharXiv希望促进未来的图表理解研究。
完成下面两步后,将自动完成登录并继续当前操作。