小红花·文摘

Meta AI 推出 Multi-SpatialMLLM：基于多模态大型语言模型的多帧空间理解

实时互动网 ·

本研究提出了一种单位语言方法，以解决无文本语音到语音翻译模型在提取跨模态语言特征和学习语言对齐方面的挑战。通过多任务学习，模型性能显著提升，实验结果与文本训练模型相当。

Leveraging Unit Language Guidance to Advance Speech Modeling in Textless Speech-to-Speech Translation

BriefGPT - AI 论文速递 ·

本研究提出了一种新颖的多任务学习方法——多模态低秩专家混合（MMoLRE），有效解决了多模态情感分析与情绪识别中的参数冲突问题，提升了两者的表现。

用于情感分析和情绪识别的多模态低秩专家混合

BriefGPT - AI 论文速递 ·

本研究分析了专用多任务优化器（SMTOs）与统一损失在多任务学习中的效果差异。实证结果表明，固定权重在某些情况下可与SMTOs竞争，统一损失在特定实例中也表现出类似于SMTOs的效果。这为多任务学习的优化方法提供了重要启示。

Uniform Loss vs. Specialized Optimization: A Comparative Analysis in Multi-Task Learning

BriefGPT - AI 论文速递 ·

本研究提出了一种统一多任务学习与模型融合的方法，以提高语言模型的防护效率。通过生成特定任务数据，训练出更小且性能优越的分类器，显著提升了对不安全和安全行为的检测能力。

Unified Multi-Task Learning and Model Fusion for Efficient Language Model Guardrailing

BriefGPT - AI 论文速递 ·

本研究提出了华为翻译服务中心的端到端文档图像机器翻译系统，解决了复杂布局问题。通过多任务学习和感知链思维的训练框架，显著提升了OCR和非OCR文档的翻译效果。

DIMT25@ICDAR2025: HW-TSC's End-to-End Document Image Machine Translation System Leveraging Large Vision-Language Model

BriefGPT - AI 论文速递 ·

本研究提出了一种多任务平衡通道注意力卷积神经网络（MT-BCA-CNN），旨在解决水下声学目标识别中的样本匮乏和环境干扰问题。该模型结合了通道注意力机制和多任务学习，优化了目标分类与特征重建。实验结果表明，MT-BCA-CNN在27类少样本场景下实现了97%的分类准确率和95%的F1分数，优于传统方法。

A Multi-task Learning Balanced Attention Convolutional Neural Network Model for Few-shot Underwater Acoustic Target Recognition

BriefGPT - AI 论文速递 ·

本研究提出了两种有效的方法，以解决多任务场景下模型合并性能下降的问题。实验结果表明，这些方法在样本数量和训练步数上优于传统多任务学习，显著提升了模型性能。

Single-Input Multi-Output Model Merging: Leveraging Foundation Models for Dense Multi-Task Learning

BriefGPT - AI 论文速递 ·

本研究提出了一种改进方案，针对医疗通用基础模型在多任务学习中的不足，引入以图像为中心的多注释X光数据集（IMAX），使七个医疗任务的学习能力平均提升3.20%至21.05%。

Enhancing the Multi-Task Learning Capability of Medical Generalist Foundation Models through Image-Centric Multi-Annotation Data

BriefGPT - AI 论文速递 ·

本研究提出了一种新型多任务学习框架DG-STMTL，用于智能交通系统中的时空交通预测。该框架结合静态和动态邻接矩阵，通过特定门控机制提高预测精度，实验结果表明其优于现有方法，具有良好的效果与稳健性。

DG-STMTL：一种用于多任务时空交通预测的新型图卷积网络

BriefGPT - AI 论文速递 ·

本研究提出了多任务学习框架EO-IUR，针对非完整发言重写中的冗余标记和训练数据集规模有限的问题。该方法通过编辑操作标签引导生成模型关注关键标记，并引入发言增强策略，实验证明在开放域和任务导向对话中优于现有技术。

Incomplete Utterance Rewriting with Editing Operation Guidance and Utterance Augmentation

BriefGPT - AI 论文速递 ·

ICLR 2025 Spotlight | 慕尼黑工业大学&北京大学：迈向无冲突训练的ConFIG方法

机器之心 ·

本研究提出了一种新方法——Frank-Wolfe合并（FW-Merging），旨在解决多任务学习中模型合并的适应性和扩展性问题。FW-Merging通过约束优化显著提高了合并的准确性和稳定性，实验结果表明其在多个模型合并中表现优异，且内存开销保持恒定，具有潜在应用价值。

FW Merging: Extending Model Merging Using Frank-Wolfe Optimization

BriefGPT - AI 论文速递 ·

人工智能首先学会识别讽刺，随后更好地理解政治观点

DEV Community ·

本研究提出了一种基于对称传输持续优化（COST）的方法，旨在解决多任务学习中的优化冲突和任务不平衡问题。COST通过寻找损失景观中的等效点，显著提升了多任务学习的性能，展现出良好的通用性。

Continual Optimization with Symmetry Teleportation for Multi-Task Learning

BriefGPT - AI 论文速递 ·

本研究提出了一种多任务学习框架，联合进行答案提取和医学分类，显著提高了答案分类准确率，展示了其在医疗场景中的潜在价值。

Improving Clinical Question Answering with Multi-Task Learning: A Joint Approach for Answer Extraction and Medical Categorization

BriefGPT - AI 论文速递 ·

本研究提出了一种新的多任务离线多智能体强化学习算法——技能发现保守Q学习（SD-CQL），旨在解决现有方法在新任务上需重新训练的问题。SD-CQL通过重构观测值发现技能，展现出优越的任务效率和泛化能力，在14个任务集中性能提升达到65%。

Meta AI 推出 Multi-SpatialMLLM：基于多模态大型语言模型的多帧空间理解

Leveraging Unit Language Guidance to Advance Speech Modeling in Textless Speech-to-Speech Translation

用于情感分析和情绪识别的多模态低秩专家混合

Uniform Loss vs. Specialized Optimization: A Comparative Analysis in Multi-Task Learning

Unified Multi-Task Learning and Model Fusion for Efficient Language Model Guardrailing

DIMT25@ICDAR2025: HW-TSC's End-to-End Document Image Machine Translation System Leveraging Large Vision-Language Model

A Multi-task Learning Balanced Attention Convolutional Neural Network Model for Few-shot Underwater Acoustic Target Recognition

Single-Input Multi-Output Model Merging: Leveraging Foundation Models for Dense Multi-Task Learning

Enhancing the Multi-Task Learning Capability of Medical Generalist Foundation Models through Image-Centric Multi-Annotation Data

DG-STMTL：一种用于多任务时空交通预测的新型图卷积网络

Incomplete Utterance Rewriting with Editing Operation Guidance and Utterance Augmentation

ICLR 2025 Spotlight | 慕尼黑工业大学&北京大学：迈向无冲突训练的ConFIG方法

FW Merging: Extending Model Merging Using Frank-Wolfe Optimization

人工智能首先学会识别讽刺，随后更好地理解政治观点

Continual Optimization with Symmetry Teleportation for Multi-Task Learning

Improving Clinical Question Answering with Multi-Task Learning: A Joint Approach for Answer Extraction and Medical Categorization

Less is More: Task-Efficient Skill Discovery for Multi-Task Offline Multi-Agent Reinforcement Learning

Towards Unified Music Emotion Recognition: Across Dimensional and Categorical Models

DARWIN 1.5 来啦！材料设计通用大语言模型，刷新多项实验性质预测记录

Spatial Visual-Language-Action Model: Exploring Spatial Representations