基于 Uniprot 开放数据集使用 Cytoscape.js 和 Amazon Neptune 图形数据库快速搭建无服务化蛋白质数据分析平台

基于 Uniprot 开放数据集使用 Cytoscape.js 和 Amazon Neptune 图形数据库快速搭建无服务化蛋白质数据分析平台

💡 原文中文,约11700字,阅读约需28分钟。
📝

内容提要

本文介绍了使用AWS CDK在亚马逊云科技上构建蛋白质相似度的方案平台,并介绍了如何使用Amazon Neptune作为图形数据库和Cytoscape.JS Web组件实现Web端的可视化OG网络。文章还介绍了如何使用CDK Synth初始化CloudFormation模版和使用cdk deploy命令部署整个方案,以及如何使用Jupyter Notebook进行数据初始化和如何访问网站。此外,文章还介绍了平台的功能,包括根据Protein ID检索网络信息、设置网络深度和查看选中Protein的Annotation信息。最后,文章提到该方案的代码已经以开源的形式发布在Github中。

🎯

关键要点

  • 当前蛋白质研究主要集中在已知蛋白上,未充分研究的蛋白占比高达60%-90%。
  • 呼吁启动'未充分研究蛋白计划',促进对未知蛋白的研究。
  • 方刚团队提出新的蛋白相似度衡量尺度,并构建蛋白质网络以解释同源性不一致的原因。
  • 基于蛋白质相似度,方刚团队希望构建一个SaaS平台,利用亚马逊云科技的开放数据集Uniprot。
  • 平台功能包括OG网络信息检索、网络深度设置和Annotation信息查看。
  • 使用Amazon Neptune作为图形数据库,支持高性能查询和数据管理。
  • 采用Serverless架构,降低应用维护成本,提升平台易用性。
  • 使用Cytoscape.JS实现Web端OG网络的可视化,方便用户操作。
  • 部署前需准备AWS账号、密钥和EC2实例等资源。
  • 通过CDK脚本实现自动化部署,简化私有化平台的搭建过程。
  • 数据初始化通过Jupyter Notebook进行,支持OG网络和Uniprot数据的加载。
  • 平台支持自定义域名解析,便于用户访问。
  • 提供根据Protein ID检索网络信息、设置网络深度和查看Annotation信息的功能。
  • 方案代码已开源发布在Github,欢迎社区贡献和反馈。
➡️

继续阅读