麻省理工学院和哈佛大学的研究团队提出了PUPS框架,通过结合蛋白质序列和细胞图像,精准预测未知蛋白质的亚细胞定位。该方法克服了传统模型的局限性,展现出良好的泛化能力和准确性,推动了生命科学研究的发展。
本研究提出了一种结合自编码器与去噪扩散模型的蛋白质序列表示学习框架,旨在解决流形学习与分布建模的任务分解问题。实验结果表明,该模型的区分能力优于基线模型。
本研究探讨了蛋白质序列工程中的优化问题,展示了大型语言模型如何在受限条件下通过引导进化方法成功寻找高适应度的蛋白质序列,为优化提供新的可能性。
本研究分析了现有子词分词方法在蛋白质序列处理中的不足,比较了BPE、WordPiece和SentencePiece,发现它们在表示和域边界保持方面存在显著差异,传统方法需改进以更好适应蛋白质特征。
本研究通过LoRA方法微调ESM-2模型,结合多头注意力机制,显著提升了蛋白质序列的理解能力,实验结果表明其在回归和分类任务中表现优异,收敛速度更快。
本研究通过重新训练大型语言模型(如Mistral-7B、Llama-2-7B),解决了蛋白质序列生成中的数据不足问题。结果表明,使用42,000个独特人类蛋白质序列训练的模型,其表现与专业模型相当,促进了计算生物学的透明度与合作。
本研究提出MeToken模型,解决了后翻译修饰(PTM)预测中对蛋白质序列过度依赖的问题。该模型通过氨基酸微环境的令牌化,综合考虑序列和结构信息,显著提高了PTM类型识别的准确性,为蛋白质组学研究提供了新思路。
本研究提出了一种新型预训练策略,强调氨基酸残基间的相互作用,提升了从序列数据中提取共演化特征的能力。实验结果表明,该模型在多个基准任务中表现优异,标志着蛋白质序列建模的重大进展。
本文介绍了一种新型核函数——加权位置特异性评分核矩阵(W-PSSKM),结合氨基酸频率和字符串核的概念,提升了蛋白质序列分类的准确性,最大提高达45.1%。
本研究提出了离散去噪后验预测(DDPP)框架,解决生成离散数据的引导问题。通过学习目标贝叶斯后验分布的采样,提供了一种无模拟的可扩展解决方案。实验表明,该方法在图像建模、文本奖励对齐和生成多样化蛋白质序列方面表现出色。
研究使用量子自然语言处理框架将蛋白质序列解析为参数化量子电路,解决蛋白质相关的机器学习问题。研究展示了两种量子张量网络,并使用经典神经网络的灵感解决二元分类任务。最佳量子模型准确率达94%,仅需约800个参数。研究表明,这些混合模型有潜力与经典模型竞争。
完成下面两步后,将自动完成登录并继续当前操作。