小红花·文摘

本文探讨了大型语言模型（LLMs）在医疗摘要任务中的表现，特别是开源模型Llama2和Mistral。研究采用GPT-4作为评估工具，发现其在特定任务中优于传统方法。LLMs在不同语言和文献类型上的表现存在差异，强调在系统综述中谨慎使用LLMs。总体而言，GPT-4在生成反馈和评估摘要方面表现良好。

大型语言模型作为科学综合评估器

BriefGPT - AI 论文速递 ·

本文介绍了为医学应用优化的数据集，探讨了微调对模型性能的影响。开发的多语言医学语言模型MMedLM 2表现优异，接近GPT-4。提出的多阶段训练方法显著提升了医学LLMs的性能，促进了医疗领域的研究与应用。同时，评估了开源LLMs在医疗摘要任务中的表现，推动了数字健康领域的发展。

Aqulia-Med LLM：全过程开源医疗语言模型的开创性

BriefGPT - AI 论文速递 ·