HyperAI超神经 ·

融合蛋白质语言模型和图像修复模型，麻省理工与哈佛联手提出PUPS ，实现单细胞级蛋白质定位

💡 原文中文，约6800字，阅读约需17分钟。

📝

内容提要

蛋白质亚细胞定位是指蛋白质在细胞内的具体位置，对其生物功能至关重要。研究表明，机器学习可以克服现有定位技术的局限性。麻省理工学院和哈佛大学的团队提出了PUPS框架，结合蛋白质序列和细胞图像，能够准确预测未知蛋白质的定位，展现出良好的泛化能力和医学应用潜力。

🎯

关键要点

蛋白质亚细胞定位对其生物功能至关重要，精准定位是生命科学的核心任务之一。
现有的蛋白质定位技术存在局限性，难以全面分析复杂的蛋白质网络。
机器学习被寄予厚望，能够克服现有技术的不足。
麻省理工学院和哈佛大学提出了PUPS框架，结合蛋白质序列和细胞图像进行定位预测。
PUPS展示了良好的泛化能力和医学应用潜力，能够准确预测未知蛋白质的定位。
PUPS的训练数据集来自人类蛋白质图谱（HPA），确保实验分析的全面性。
PUPS模型由蛋白质序列学习部分和细胞图像学习部分组成，结合两者进行定位预测。
PUPS在细胞系间和单细胞间的蛋白质定位变异性预测中表现出色，相关性高。
PUPS能够预测致病突变对蛋白质定位的影响，为疾病机制研究提供新线索。
PUPS为蛋白质亚细胞定位预测提供了一种融合多模态信息的新思路，推动生物信息学的发展。

❓

延伸问答

PUPS框架的主要功能是什么？

PUPS框架结合蛋白质序列和细胞图像，能够准确预测未知蛋白质的亚细胞定位。

PUPS如何克服现有蛋白质定位技术的局限性？

PUPS通过结合蛋白质语言模型和图像修复模型，提升了对未知蛋白质的预测能力和细胞类型特异性。

PUPS的训练数据集来源于哪里？

PUPS的训练数据集来自人类蛋白质图谱（HPA），确保了实验分析的全面性。

PUPS在医学应用方面有哪些潜力？

PUPS能够预测致病突变对蛋白质定位的影响，为疾病机制研究提供新线索，具有重要的医学应用潜力。

PUPS如何处理细胞间和单细胞间的蛋白质定位变异性？

PUPS能够评估细胞系之间及单细胞间的蛋白质定位变异性，展示出高相关性和准确性。

PUPS的模型结构是怎样的？

PUPS模型由蛋白质序列学习部分和细胞图像学习部分组成，结合两者进行定位预测。

🏷️

继续阅读

如何为机器学习预处理医疗影像——以胸部X光为例的指南
本文讨论了胸部X光影像数据集的预处理重要性，介绍了六个核心步骤：数据验证、缩放、归一化、关注区域引导、处理缺失数据和去噪。强调不当预处理可能导致模型性能下...
Gemma 4 QAT模型：优化移动设备和笔记本电脑的模型压缩效率
Gemma 4最近发布了优化的量化感知训练（QAT）检查点，提升了模型在移动设备上的效率，减少了压缩时的质量损失，显著降低了内存占用，适合在日常边缘设备上...
深入探讨语言模型的校准：Platt缩放、等距回归与温度缩放
大型语言模型（LLMs）普遍存在误校准问题，导致信心分数与实际正确率不符。传统的后处理校准方法包括温度缩放、Platt缩放和等距回归，但由于LLMs的复杂...
智源&清华合作成果登上Science：脑科学多模态基础模型Brainμ支撑揭示“记忆-睡眠”调控的神经机制
研究表明，睡眠中的记忆重激活影响睡眠动态，提供了“记忆-睡眠”双向作用的新证据。智源研究院与清华大学的研究发现，负向记忆再激活加剧睡眠碎片化，而正向记忆再...
基于220种海洋细菌，科学家用基因组尺度模型重构异养微生物分类体系，挖出8类代谢菌群
研究揭示海洋异养微生物的代谢生态位，打破传统的富营养型与寡营养型二分法，提出8类代谢菌群。通过基因组分析，阐明其生长规律与资源竞争，推动全球碳循环研究，为...
微软MAI模型发布深度解读：前沿微调成企业AI护城河
微软在2026年推出的MAI系列模型标志着其从依赖OpenAI转向自建AI模型的战略转变。MAI模型涵盖推理、编码、图像和语音等多个领域，特别是通过“前沿...