Seq2Symm是一种基于ESM2的新型蛋白质同源寡聚体对称性预测模型,能够每小时处理约80,000个蛋白质,且准确率高于现有方法。该模型通过单条序列输入,显著提升了预测速度和效率,适合大规模蛋白组分析,推动蛋白质研究进展。
本研究分析了FLIP基准下大型蛋白质语言模型(如ESM-2和SaProt)的表现,发现它们在数据稀缺的特定任务中显著提高了预测准确性,为蛋白质预测提供了新的参考。
本研究通过LoRA方法微调ESM-2模型,结合多头注意力机制,显著提升了蛋白质序列的理解能力,实验结果表明其在回归和分类任务中表现优异,收敛速度更快。
利用ESM-2开发了pLMFPPred工具,用于预测功能性肽和识别有毒肽。采用SMOTE-TOMEK数据合成采样和Shapley值技术缓解数据不平衡问题和减少计算成本。在验证测试集上,pLMFPPred表现更优,具有更好的准确率、AUC-ROC和F1-Score。是一种新的预测功能性肽的计算方法。
完成下面两步后,将自动完成登录并继续当前操作。