本研究建立了ChemRxivQuest数据库,包含155篇ChemRxiv预印本的970对高质量问答,旨在应对化学文献快速增长带来的信息获取挑战,为问答系统和语言模型的微调提供基础资源。
本研究提出了一种MarkushGrapher方法,旨在解决化学文献中马库什结构识别不足的问题。该方法通过联合编码文本、图像和布局信息,有效识别马库什结构,并引入合成数据生成管道以应对训练数据不足。实验结果表明,该方法在多个评估中优于现有模型,具有实际应用潜力。
完成下面两步后,将自动完成登录并继续当前操作。