本研究提出了e-SimFT框架,通过仿真器反馈微调生成模型,解决复杂工程设计中的对齐问题。采用epsilon采样方法生成高质量Pareto前沿,优于传统的多目标对齐方法。
本研究提出GenARM,通过自回归奖励模型提高大型语言模型与人类偏好的对齐效率。GenARM在测试时进行次标记奖励预测,优化文本生成。实验结果显示其性能优于传统方法,支持多目标对齐,满足用户多样化需求,无需重新训练。
完成下面两步后,将自动完成登录并继续当前操作。