[笔记] 生成式推荐:OpenOneRec 技术报告(快手,2026)
💡
原文中文,约12500字,阅读约需30分钟。
📝
内容提要
本文介绍了快手的OpenOneRec技术报告,提出了RecIF-Bench推荐领域的基准测试,涵盖8种任务类型。通过两阶段对齐策略,提升模型的推荐和通用能力。开源模型分为标准和专业版本,训练数据包括16万用户和9600万交互数据,确保可复现性。
🎯
关键要点
- 快手的OpenOneRec技术报告介绍了RecIF-Bench推荐领域的基准测试,涵盖8种任务类型。
- 通过两阶段对齐策略,提升模型的推荐和通用能力。
- 开源模型分为标准和专业版本,训练数据包括16万用户和9600万交互数据,确保可复现性。
- RecIF-Bench是一个推荐领域的指令遵循测试基准,能评估8种任务类型。
- 引入两阶段对齐策略以缓解SFT带来的通用能力退化。
- 模型分为Standard和Pro版本,Pro版本使用快手的工业语料增强。
- 采用Itemic Tokens方案将商品作为独立模态进行语义编码。
- 推荐任务使用自回归模型,用户交互历史作为长上下文序列。
- RecIF-Bench将8类任务分为4层,评估模型的对齐能力、基础推荐能力、指令遵循能力和推理能力。
- 评估指标包括推荐指标和文本生成指标,确保模型性能的全面评估。
- 预训练阶段通过Itemic-Text Alignment和全参预训练注入推荐领域知识。
- 后训练阶段通过多任务SFT、On-policy Distillation和强化学习恢复模型的通用能力和推荐能力。
- 未来工作方向包括优化tokenizer的可迁移性和数据配比,以提升模型的通用智能与推理能力。
🏷️
标签
➡️