本研究探讨了大型语言模型在低资源语言(如新加坡英语)中对齐人类价值观的有效性。通过监督微调和KTO优化,提出了一种更高效且降低毒性的对齐方法,成功将新加坡英语的毒性降低了99%。
完成下面两步后,将自动完成登录并继续当前操作。