小红花·文摘

本研究提出了多模态检索增强生成基准（M^2RAG），旨在评估多模态大型语言模型的有效性，并引入了多模态检索增强指令调优（MM-RAIT）方法，显著提升了模型性能。

BriefGPT - AI 论文速递 ·

本研究提出生成基准（GBCV）方法，评估大语言模型（LLMs）生成测试用例的能力。结果显示，GPT-4o在复杂程序结构上表现优异，但在简单条件下的边界值检测中，各模型均表现良好，而在算术计算方面则面临挑战。研究揭示了LLMs的优势与局限性。

BriefGPT - AI 论文速递 ·