SPARQL 生成：对于在生命科学知识图谱上进行问答的 OpenLLaMA 微调分析

利用大型语言模型 (LLM)，本研究评估了几种策略用于在生命科学知识图谱上进行问题回答，并提出一种端到端的数据增强方法，使得即使在缺乏问题到 SPARQL 查询对的数据集的情况下，也能进行微调。此外，研究还探讨了查询中语义线索的作用，并在真实的基因表达知识图谱上进行了评估，结果表明语义线索可以提高模型性能，相比于随机变量名和没有注释的基准结果，性能提升最多达到 33%。

该研究评估了大型语言模型在条件问答领域的能力和局限性。研究发现，微调的模型在某些情况下优于现有技术，但在抽取性问答方面落后于10个以上的点。研究强调了有效证据检索的重要性，并提出了改进训练任务和探索基于提示的技术以提高模型性能的未来工作的需求。

大型语言模型微调抽取性问答条件问答证据检索