小红花·文摘

Modal 提供免费的 GLM-5.1 模型到月底，但限速 1

小众软件 ·

In this article, the author explores how hierarchical agentic RAG systems coordinate specialized workers through structured orchestration to improve accuracy, reliability, and explainability in...

Article: Building Hierarchical Agentic RAG Systems: Multi-Modal Reasoning with Autonomous Error Recovery

InfoQ ·

电子商务搜索中的稀疏嵌入微调 | 第二部分：在Modal上训练SPLADE

Qdrant - Vector Database ·

Jamsocket的会话状态基础设施与Modal合并，迎来新家

The New Stack ·

在Modal上部署Magistral vLLM服务器

KDnuggets ·

本研究提出了一种新方法，结合外生时间序列特征与静态特征，以提升医疗领域时间序列预测模型的透明性和可解释性。实验结果表明，该方法在保持预测准确性的同时，增强了模型的可解释性和鲁棒性。

Robust Multi-Modal Forecasting: Integrating Static and Dynamic Features

BriefGPT - AI 论文速递 ·

本研究针对语音LLM在上下文推理和副语言理解方面的不足，提出了一种新框架，通过实际语音数据生成问答数据集。研究结果显示，语音LLM在同理推理任务中的局限性，强调了对相关数据集和更强模型的需求。

Creation of Contextual Paralinguistic Data for Multi-Modal Speech LLM: Data Condensation and Spoken QA Generation

BriefGPT - AI 论文速递 ·

本研究提出了一种新的跨模态对齐方法——结构引导跨模态对齐（SGCMA），旨在提升大型语言模型在时间序列预测中的应用。该方法通过学习状态转移图结构和语义对齐，显著提高了预测性能和泛化能力。

Enhancing the Application of Large Language Models in Time Series Forecasting via Structure-Guided Cross-Modal Alignment

BriefGPT - AI 论文速递 ·

本研究提出了一种名为PI-VAD的框架，用于弱监督视频异常检测。通过引入五种附加模态来增强RGB特征，从而提高异常检测的可靠性。PI-VAD在多个数据集上表现出色，展示了有效整合多模态信息的潜力。

Just Dance with $π$! A Poly-modal Inductor for Weakly-supervised Video Anomaly Detection

BriefGPT - AI 论文速递 ·

本研究提出了一种基于最佳运输的图匹配方法（GM-OT），旨在解决从预训练语言模型向声学特征学习转移语言知识时的对齐挑战。该方法通过将语言和声学序列建模为结构化图，提升了知识迁移效率，显著提高了自动语音识别模型的性能。

Cross-modal Knowledge Transfer Learning for Automatic Speech Recognition Based on Optimal Transport Graph Matching

BriefGPT - AI 论文速递 ·

2025年NLPCC共享任务4旨在推动医学教学视频中的多模态、多语言和多跳问题回答研究。新挑战M4IVQA评估模型在处理视频与文本数据、理解多语言查询及合理回答方面的能力，促进医疗场景中的多模态推理系统创新，提高医疗教育平台的效率。

Overview of the NLPCC 2025 Shared Task 4: Multi-modal, Multilingual, and Multi-hop Medical Instructional Video Question Answering Challenge

BriefGPT - AI 论文速递 ·

本研究提出了一种名为Biomed-DPT的双模态提示调优技术，旨在提升生物医学图像分类的提示学习效果。通过结合临床提示、领域适应提示和视觉提示中的零向量软提示，该方法显著提高了分类准确率。

Hierarchical Thinking and Dynamic Action: Hierarchical Multi-modal Fusion and Reasoning for Vision-and-Language Navigation

BriefGPT - AI 论文速递 ·

本研究提出了TrustGeoGen，一个可扩展的正式验证数据引擎，旨在解决几何问题求解中的不足。该引擎通过多模态对齐生成和形式验证，显著提高了模型的逻辑一致性和泛化能力。

TrustGeoGen: A Scalable and Formally Verified Data Engine for Reliable Multi-modal Geometric Problem Solving

BriefGPT - AI 论文速递 ·

Modal 提供免费的 GLM-5.1 模型到月底，但限速 1

Article: Building Hierarchical Agentic RAG Systems: Multi-Modal Reasoning with Autonomous Error Recovery

电子商务搜索中的稀疏嵌入微调 | 第二部分：在Modal上训练SPLADE

Jamsocket的会话状态基础设施与Modal合并，迎来新家

在Modal上部署Magistral vLLM服务器

Robust Multi-Modal Forecasting: Integrating Static and Dynamic Features

Creation of Contextual Paralinguistic Data for Multi-Modal Speech LLM: Data Condensation and Spoken QA Generation

Enhancing the Application of Large Language Models in Time Series Forecasting via Structure-Guided Cross-Modal Alignment

Just Dance with $π$! A Poly-modal Inductor for Weakly-supervised Video Anomaly Detection

Cross-modal Knowledge Transfer Learning for Automatic Speech Recognition Based on Optimal Transport Graph Matching

Overview of the NLPCC 2025 Shared Task 4: Multi-modal, Multilingual, and Multi-hop Medical Instructional Video Question Answering Challenge

Biomed-DPT: A Dual-Modal Prompt Tuning Technique for Biomedical Vision-Language Models

VITA-Audio: Fast Interleaved Cross-Modal Token Generation for Efficient Large-Scale Speech Language Models

MSFNet-CPD: A Multi-Scale Cross-Modal Fusion Network for Crop Pest Detection

JTCSE: Joint Tensor Modal Constraints and Cross-Attention for Unsupervised Contrastive Learning of Sentence Embeddings

CLIP-KOA: Enhancing Knee Osteoarthritis Diagnosis through Multi-Modal Learning and Symmetry-Aware Loss Functions

PolyTouch: A Robust Multi-Modal Tactile Sensor for Contact-Rich Manipulation Using Tactile-Diffusion Strategies

Multi-Modal Hypergraph Contrastive Learning Recommendation System

Hierarchical Thinking and Dynamic Action: Hierarchical Multi-modal Fusion and Reasoning for Vision-and-Language Navigation

TrustGeoGen: A Scalable and Formally Verified Data Engine for Reliable Multi-modal Geometric Problem Solving