本研究提出了一种利用基础语言模型(FLMs)从多个电子健康记录(EHR)数据库中自动提取研究队列的方法,成功实现了92%的提取精确度,显著提高了效率和应用价值。
通过利用基础语言模型进行自主数据选择,改进语言模型在数学推理方面的能力。引入了一种创新的策略,利用元提示语言模型作为零-shot验证器,自主评估和选择高质量的数学内容。发布了一个经过筛选的开源AutoMathText数据集,包含超过200GB的数据。Mistral语言模型在AutoMathText数据集上连续预训练,下游性能显著提高,标记数量大幅减少。方法比基准方法提高了2倍的预训练标记效率,突显了在增强模型数学推理能力方面的潜力。
完成下面两步后,将自动完成登录并继续当前操作。