麻省理工学院和哈佛大学的研究团队提出了PUPS框架,通过结合蛋白质序列和细胞图像,精准预测未知蛋白质的亚细胞定位。该方法克服了传统模型的局限性,展现出良好的泛化能力和准确性,推动了生命科学研究的发展。
本研究提出了一种结合自编码器与去噪扩散模型的蛋白质序列表示学习框架,旨在解决流形学习与分布建模的任务分解问题。实验结果表明,该模型的区分能力优于基线模型。
本研究探讨了在受限条件下利用大型语言模型(LLMs)进行蛋白质序列优化的问题。研究结果表明,这些模型在合成和实验适应度方面均取得了成功,为蛋白质优化提供了新的可能性。
本研究分析了现有子词分词方法在蛋白质序列处理中的不足,比较了BPE、WordPiece和SentencePiece,发现它们在表示和域边界保持方面存在显著差异,传统方法需改进以更好适应蛋白质特征。
本研究提出MeToken模型,解决了后翻译修饰(PTM)预测中对蛋白质序列的过度依赖问题。该模型通过令牌化氨基酸微环境,综合考虑序列与结构信息,显著提高了PTM类型的识别准确性,为蛋白质组学研究提供了新方法。
本研究提出了一种新型预训练策略,强调氨基酸残基间的相互作用,提升了从序列数据中提取共演化特征的能力。实验结果表明,该模型在多个基准任务中表现优异,标志着蛋白质序列建模的重大进展。
本文介绍了一种新型核函数——加权位置特异性评分核矩阵(W-PSSKM),结合氨基酸频率和字符串核的概念,提升了蛋白质序列分类的准确性,最大提高达45.1%。
本文介绍了RITA模型,这是一种自回归生成模型,专注于蛋白质序列,拥有12亿个参数,并训练了2.8亿个蛋白质序列。研究评估了该模型在氨基酸预测和酶功能预测中的表现,展示了规模扩大的优势。同时,文章探讨了大型语言模型在生物分子领域的应用及其性能,强调了多模态学习在生物信息学中的潜力。
完成下面两步后,将自动完成登录并继续当前操作。