入选AAAI 2025!清华/伦敦大学学院等首创蛋白质-RNA语言模型融合方案,结合亲和力预测刷新SOTA

💡 原文中文,约5300字,阅读约需13分钟。
📝

内容提要

阿尔茨海默病等神经退行性疾病与蛋白质-RNA结合异常有关。研究者提出CoPRA模型,通过结合蛋白质和RNA的语言模型,预测结合亲和力,取得了优异的性能,推动了生物医学研究的进展。

🎯

关键要点

  • 阿尔茨海默病等神经退行性疾病与蛋白质-RNA结合异常相关。
  • 研究蛋白质-RNA结合对基因表达调控和疾病解析至关重要。
  • CoPRA模型结合蛋白质和RNA语言模型,预测结合亲和力,性能优异。
  • CoPRA模型在国际人工智能年会上获得广泛关注并入选口头报告。
  • CoPRA模型首次将蛋白质语言模型与RNA语言模型结合用于结合亲和力预测。
  • 研究人员整理了最大的蛋白质-RNA结合亲和力数据集,评估CoPRA性能。
  • CLIP实验技术解析RNA结合蛋白在转录组上的结合图谱,但实验费时费力。
  • 清华大学的研究团队开发了PrismNet,预测细胞内RBP动态结合。
  • 多种计算方法被提出用于预测蛋白质-RNA结合亲和力,但存在局限性。
  • CoPRA模型通过结构引导的多头自注意力融合序列和结构信息。
  • CoPRA在多个数据集上表现最佳,显示出结合预训练单模态LMs的潜力。
  • CoPRA在预测突变对结合亲和力影响方面表现优越,泛化能力强。
  • 多模态学习为蛋白质科学提供新思路,结合不同类型数据进行建模。
  • 新颖的多模态特征提取框架在药物研发中取得最先进性能。
  • EvoLLama框架将蛋白质结构编码器、序列编码器与大语言模型融合,展现强大泛化能力。

延伸问答

CoPRA模型的主要创新点是什么?

CoPRA模型首次将蛋白质语言模型与RNA语言模型结合,用于蛋白质-RNA结合亲和力预测。

CoPRA模型在预测结合亲和力方面的表现如何?

CoPRA在多个数据集上表现最佳,尤其在PRA310数据集上达到了最先进的性能。

蛋白质-RNA结合异常与哪些疾病相关?

蛋白质-RNA结合异常与阿尔茨海默病、帕金森病和癫痫等神经退行性疾病相关。

多模态学习在蛋白质科学中的应用有哪些?

多模态学习结合不同类型数据进行建模,为蛋白质功能、结构和性质的理解提供新思路。

CoPRA模型如何处理结构信息?

CoPRA通过结构引导的多头自注意力融合序列和结构信息,形成结构-序列融合模块。

研究人员如何评估CoPRA模型的性能?

研究人员整理了最大的蛋白质-RNA结合亲和力数据集,并在多个数据集上进行评估。

➡️

继续阅读