本研究探讨了生物医学语言模型的改进方法,包括更准确的分词器和领域特定词汇。结果表明,尽管某些方法未能提升模型表现,但通过知识蒸馏和上下文嵌入等技术,开发的轻量级模型在多个临床文本挖掘任务中表现优异,超越了传统模型。此外,研究提出的新自动标注模型显著提高了临床概念提取的准确性,为数字医疗记录的实用性提供了新工具。
本研究利用英语语料库和本地化语料库数据建立生物医学语言模型,发现合并高质量数据可以提高模型性能。研究成果有望为意大利医院和学术界提供发展机遇,并为构建通用的生物医学语言模型提供有价值的见解。
完成下面两步后,将自动完成登录并继续当前操作。