小红花·文摘

利用 AI 教学哈佛 CS50 课程 —— 在计算机科学教育中的生成式人工智能应用 [译]

宝玉的分享 ·

本文介绍了一个包含983个电子病历数据的自然语言指令的基准数据集MedAlign，用于评估医疗保健领域的大型语言模型（LLMs）的准确性和质量。通过评估6个通用领域的LLMs，发现高错误率和GPT-4在文本长度从32k到2k时准确率下降了8.3％。同时，还报告了医生排名和自动化自然语言生成度量之间的相关性，以一种无需人工审查的方式对LLMs进行排名。

AlpaCare：针对医疗应用进行指导调优的大型语言模型

BriefGPT - AI 论文速递 ·