本研究提出了DNAZEN框架,旨在解决传统基因序列表示方法未能充分利用不同粒度信息的问题。通过动态匹配小聚合物和G-grams组合,DNAZEN在多个下游任务中表现优异,展现出显著的应用潜力。
本研究提出了Life-Code框架,整合多组学数据,解决了现代生物预训练模型在分析DNA、RNA和蛋白质相互作用时的不足。该框架通过逆转录和逆翻译过程,实现了对复杂基因序列的全面理解,实验结果显示其在多项任务上表现优异,展现了在多组学分析中的潜力。
山东大学研究人员提出了无监督框架DNASimCLR,旨在高效提取微生物基因序列特征。该方法结合卷积神经网络和对比学习,解决了标记数据稀缺的问题。研究表明,DNASimCLR在分类任务中实现了99%的准确率,拓展了对比学习在基因组学中的应用。
GenSLMs是一种大型语言模型,能够生成与SARS-CoV-2病毒相似的基因序列。该模型由Argonne国家实验室、NVIDIA和芝加哥大学等研究机构和商业合作伙伴开发。GenSLMs能够生成序列并对COVID基因组进行分类和聚类。该模型的研究团队去年在SC22超级计算会议上获得Gordon Bell特别奖。
完成下面两步后,将自动完成登录并继续当前操作。