COMPASS:一个针对工具辅助规划与偏好优化的多轮基准测试
Apple Machine Learning Research
·
ICLR&CVPR 2025美团技术团队论文精选
美团技术团队
·
ORPO、DPO与PPO:为人类偏好优化模型
DEV Community
·
弱到强的推理
BriefGPT - AI 论文速递
·