ICLR 2025 Oral | IDEA联合清华北大提出ChartMoE：探究下游任务中多样化对齐MoE的表征和知识

机器之心 ·

ICLR 2025 Oral | IDEA联合清华北大提出ChartMoE：探究下游任务中多样化对齐MoE的表征和知识

💡 原文中文，约4300字，阅读约需11分钟。

📝

内容提要

在ICLR 2025会议上，ChartMoE论文被录取为口头报告。该模型通过多阶段对齐任务增强图表理解能力，采用MoE结构，显著提升视觉表征和性能。研究表明，ChartMoE在通用和图表领域均表现优异，减少了对通用知识的遗忘。

🎯

关键要点

ChartMoE论文在ICLR 2025会议上被录取为口头报告，展示了其在图表理解能力上的创新。
ChartMoE采用MoE结构，通过多阶段对齐任务增强模型对图表的理解，同时保持通用任务的性能。
该模型通过多样的对齐任务进行专家初始化，提升了专家间的异质性，学习到更全面的视觉表征。
ChartMoE设计了多阶段的图文对齐方式，能够处理图表的多种结构化文本格式。
训练分为三个阶段，包括多阶段对齐、广泛学习高质量知识和Chart领域的SFT。
ChartMoE在通用领域和图表领域的性能均表现优异，减少了对通用知识的遗忘。
模型的专家选择分布显示，背景tokens倾向于选择通用专家，而数据点和图像元素则倾向于选择代码专家。
ChartMoE的设计和训练方法为后续研究提供了新的思路，探索Sparse结构在下游任务中的表现。

❓

延伸问答

ChartMoE模型的主要创新点是什么？

ChartMoE通过多阶段对齐任务增强图表理解能力，采用MoE结构，显著提升视觉表征和性能。

ChartMoE的训练过程是怎样的？

ChartMoE的训练分为三个阶段：多阶段对齐、广泛学习高质量知识和Chart领域的SFT。

ChartMoE在通用领域的表现如何？

ChartMoE在通用领域表现优异，减少了对通用知识的遗忘，且在某些细分领域上还有增点。

ChartMoE如何处理图表的多种结构化文本格式？

ChartMoE设计了多阶段的图文对齐方式，将图表转译成Table、JSON和Python Code等格式。

ChartMoE的专家选择分布有什么特点？

背景tokens倾向于选择通用专家，而数据点和图像元素则倾向于选择代码专家。

ChartMoE的研究对后续工作有什么启示？

ChartMoE的设计和训练方法为后续研究提供了新的思路，探索Sparse结构在下游任务中的表现。

🏷️

继续阅读

OpenAI的Codex新增工具——网站、注释及更多插件——助力知识工作者
OpenAI最近推出了Codex的新功能，包括“网站”和“注释”，旨在帮助知识工作者创建互动网站和定制仪表板，支持团队协作。新插件将涵盖数据分析、销售和产...
这里是七分钟的金刚狼血腥战斗画面，独占PS5
索尼在最新的State of Play活动中展示了《漫威：金刚狼》的新游戏画面，该游戏将于9月15日独占PS5发布。金刚狼身穿经典黄色服装，展现了激烈且血...
蒂姆的创始人厨房 — 从头脑风暴到总统办公室仅需两个月（特别嘉宾：杰克·贝克拉夫，Strand Therapeutics） (#868)
杰克·贝克拉夫是Strand Therapeutics的首席执行官，专注于开发可编程基因医学平台，推动RNA药物的创新，实现细胞选择性靶向和治疗药物传递。...
2026年6月PlayStation State of Play：所有新闻和预告片
索尼将在2026年6月2日的State of Play活动中发布超过60分钟的更新和游戏预告，重点展示《金刚狼》。此次活动对PlayStation品牌至关...
Radim Marek：pg_stat_statements：它告诉你的所有信息
pg_stat_statements是PostgreSQL的扩展，用于监控数据库查询性能。它通过哈希表记录查询的执行次数和总时间，但不保存具体查询文本。查...
异乡的乡音
在异国他乡，听到熟悉的歌声令人感动。作者回忆与老华人聚餐的经历，感受到“同文同种”的亲近。尽管彼此陌生，语言和音乐让人们暂时放下隔阂，形成小共同体。乡音承...