本研究优化了蛋白质语言模型的训练,通过增加多样性以防止过拟合,并引入元基因组蛋白质序列,发现了新的规律。适当调整计算资源可提高模型的精确度。
本研究探讨了DNA序列表示的挑战,提出了一种基于k-mer的轻量化模型,能够在基因组读取层面进行元基因组分箱,具有更好的可扩展性,适用于真实数据集。
完成下面两步后,将自动完成登录并继续当前操作。