BriefGPT - AI 论文速递 ·

集体 SFT：在医疗评估中使用集体指令扩展大型中文语言模型

💡 原文中文，约1500字，阅读约需4分钟。

📝

内容提要

本文介绍了针对医学和中医领域的大型语言模型评估工具和基准，如CMB、MedBench和TCM-Bench，旨在提升模型在中国医学中的应用效果。研究综合评估模型性能，揭示其能力与局限性，并提出新的训练方法和数据集，以优化医学领域的语言模型表现。

🎯

关键要点

提出了基于中文和本土文化框架的医学基准评估工具CMB，旨在促进大型语言模型在中国医学领域的应用。
MedBench是一个综合性的基准测试，包含40,041个医学问题，用于评估医学语言学习模型的知识掌握和推理能力。
TCM-Bench综合评估中医领域大型语言模型的性能，提出了TCMScore作为评估中医问题回答质量的指标。
研究建立了一个全面、标准化的医学大型语言模型评估过程，使用MedBench作为基准系统，提供43个临床专业的数据集。
引入CMtMedQA数据集，包含7万个真实医患对话，提升了基于中医的大型语言模型的性能和安全性。
通过CMExam数据集，解决了医学领域大型语言模型评估的挑战，并分析了LLMs在中国医学中的表现。
提出了一种多阶段训练方法，结合专业域持续预训练、监督微调和直接偏好优化，显著提升了医学LLM的性能。
PromptCBLUE基准用于评估中文大语言模型在生物医学任务上的多任务能力，涵盖医学实体识别、文本分类等多个领域。

❓

延伸问答

CMB是什么，它的目的是什么？

CMB是一个基于中文和本土文化框架的医学基准评估工具，旨在促进大型语言模型在中国医学领域的应用和改进。

MedBench包含多少个医学问题，它的作用是什么？

MedBench包含40,041个医学问题，用于评估医学语言学习模型的知识掌握和推理能力。

TCM-Bench如何评估中医领域的语言模型？

TCM-Bench通过提出TCMScore作为评估中医问题回答质量的指标，综合评估中医领域大型语言模型的性能。

CMtMedQA数据集的特点是什么？

CMtMedQA数据集包含7万个真实医患对话，旨在提升基于中医的大型语言模型的性能和安全性。

如何解决医学领域大型语言模型评估的挑战？

通过引入CMExam数据集，该研究解决了医学领域大型语言模型评估的挑战，并分析了LLMs在中国医学中的表现。

多阶段训练方法在医学LLM中的应用效果如何？

多阶段训练方法结合了专业域持续预训练、监督微调和直接偏好优化，显著提升了医学LLM的性能。

🏷️

标签

中医医学训练方法评估工具语言模型

➡️

继续阅读

实时音视频(RTC) 延迟标准如何重塑远程医疗平台性能
远程医疗运行在一个速度几乎影响每一个就诊环节的行业里，加入在线问诊时你期望医生的回应即时到达，查看实时监护数据时同样容不得迟滞，哪怕短暂的卡顿也会迅速瓦解...
Wolves, sheep, and gypsies
In 2012, the first Danish wolf in nearly two hundred years was discovered in ...
13 Google tips for a fun, productive summer off from college
Illustration of a woman in front of a computer, a phone searching an image of...
Why R&D Data Belongs in the Lakehouse - and Why Agents Need It There
The setupAt cellcentric, a joint venture of Daimler Truck and Volvo Group, we...
How Dow Built a Carbon Footprint Ledger on Databricks to Accelerate Sustainability at Scale
Why we built the Carbon Footprint LedgerAt Dow, our ambition is to be the mos...
Issue #744: CPython ABI, CLAUDE.md, Itertools Cheatsheet, and More (2026-07-21)
#744 – JULY 21, 2026 View in Browser » What Every Dev Should Know About t...