小红花·文摘

本研究探讨了大型语言模型在低资源语言（如新加坡英语）中对齐人类价值观的有效性。通过监督微调和KTO优化，提出了一种更高效且降低毒性的对齐方法，成功将新加坡英语的毒性降低了99%。