本文提出了一种基于部分专家示范的强化学习框架,旨在解决复杂的序列生成任务。通过自适应回溯算法,动态调整每个样本的监督长度,模型能够逐步学习推理链。研究表明,这种逐样本课程学习在处理长序列依赖时优于传统的监督微调和强化学习,有效提升推理能力。
上海交通大学将于2025年8月举办第三届「AI for Bioengineering 暑期学校」,吸引200余位青年学者探讨AI与生物工程的结合。李明辰博士介绍了蛋白质语言模型在功能预测和序列生成方面的研究进展,并提出了一种基于蛋白质结构、序列和功能的新分类方法,强调了其在突变预测和蛋白质设计中的应用。
OpenAI 的块离散去噪扩散语言模型(BD3-LMs)结合了扩散与自回归模型,解决了生成任意长度序列的局限性。研究表明,BD3-LMs 在多个基准测试中表现出最佳困惑度,能够高效生成可变长度文档,克服了传统扩散模型的缺陷。
本研究提出了ProtDAT框架,解决了大型语言模型在蛋白质设计中多模态数据关系捕获不足的问题。通过多模态交叉注意力机制,ProtDAT有效整合蛋白质序列与文本信息,实验结果表明其在蛋白质序列生成方面表现优异,提升了设计的有效性与功能性。
本文解决了变压器在序列生成模型中推断阶段计算成本高的问题。提出了一种加速长卷积序列模型推断的方法,将时间复杂度降至接近线性 $O(L ext{log}^2L)$。实验显示性能显著提升,尤其在位置混合部分实现了 $50 imes$ 的改进。
华盛顿大学David Baker团队开发了ProteinGenerator (PG),一种基于RoseTTAFold的模型,能同时生成蛋白质序列和结构。PG通过迭代去噪,以所需属性为指导,设计耐热蛋白质和生物活性肽。研究显示,PG在设计准确度上优于传统方法,能生成多状态和功能蛋白,并适应多种序列约束。PG还能设计含稀有氨基酸的蛋白质,展示了超越天然序列的能力。
该研究提出了一种基于自回归学习的元启发式算法自动设计器,通过自动生成序列,全面发现元启发式算法的潜力并利用先前的设计经验,解决开放式问题。该设计器生成的算法在25个测试问题中超过了所有人类设计的基准算法,适应不同问题处理环境并显示多样结构和行为。
ProActive是一种用于建模活动序列中行动时间分布的框架,解决行动预测、序列目标预测和序列生成等问题。实验证明ProActive在行动和目标预测方面准确性显著提高,并首次应用了端到端行动序列生成。
完成下面两步后,将自动完成登录并继续当前操作。