我们提出了一种新方法,称为测试时自适应优化(TAO),该方法利用未标记数据和强化学习,在测试阶段提升大型语言模型的性能。TAO在文档问答和SQL生成等企业任务中优于传统微调,使开源模型Llama接近昂贵的专有模型质量。通过生成响应、评分和强化学习,TAO实现高效调优,降低推理成本。
完成下面两步后,将自动完成登录并继续当前操作。