PM-LLM-Benchmark: 评估大型语言模型在过程挖掘任务上的表现
原文中文,约500字,阅读约需2分钟。发表于: 。提出了 PM-LLM-Benchmark 作为第一个全面的过程挖掘领域知识和不同实现策略的 PM 综合基准。我们观察到大多数所考虑的大语言模型可以以令人满意的水平执行一些过程挖掘任务,但面向边缘设备的小型模型仍然不足。我们得出结论,虽然提出的基准对于找到适合过程挖掘任务的大语言模型很有用,但需要进一步研究以克服评估偏差,并对竞争性大语言模型进行更全面的排名。
研究评估了大型语言模型(LLM)在生物医学任务中的性能,发现LLMs在具有较小训练集的生物医学数据集中表现出色,甚至超过了当前最先进的生物医学模型。然而,不同LLMs的性能可能因任务而异。尽管与精细调整的生物医学模型相比,LLMs的性能仍然较差,但它们在缺乏大规模注释数据的生物医学任务中具有潜在的价值。