评估信息检索系统对设计决策至关重要。使用归一化折扣累积增益(NDCG@K)来评估模型性能,考虑结果的顺序和相关性评分,确保相关项排名靠前。基于Redis向量数据库的实验表明,微调模型在准确性和排名上显著优于基模型。
本研究提出序列偏好优化方法,利用NDCG解决大型语言模型与人类多样化偏好的对齐问题。结果显示,OPO在评估和基准测试中优于现有方法,并通过增加负样本池提升性能。
本研究提出政策检索任务,引入中文股票政策检索数据集(CSPRD),对700多个招股说明书文段进行标注。实验结果表明,CSPRD对于双编码模型是有效的,最佳基准模型在开发集上达到了56.1%的MRR@10,28.5%的NDCG@10,37.5%的Recall@10和80.6%的Precision@10。
完成下面两步后,将自动完成登录并继续当前操作。