博客园 - JadePeng ·

In-batch negatives Embedding模型介绍与实践 - JadePeng

💡 原文中文，约6200字，阅读约需15分钟。

📝

内容提要

语义索引技术是搜索引擎和推荐系统的核心，旨在快速准确地召回相关文本。通过In-batch Negatives策略，利用负样本提升模型效果。训练使用8000万条数据，最终模型在测试中表现优异，超越未大规模训练的模型。

🎯

关键要点

语义索引技术是搜索引擎和推荐系统的核心，旨在快速准确地召回相关文本。
In-batch Negatives策略通过在一个Batch内同时基于多个负例进行梯度更新，提升模型效果。
训练使用8000万条数据，采用rocketqa-zh-mini-query-encoder作为基础模型，训练256维的embedding模型。
模型评估使用Recall@1、Recall@5等指标，结果显示经过大规模训练的模型效果优于未大规模训练的模型。
总结认为，In-batch Negatives策略能充分利用现有数据，减少负样本准备的投入，同时提升模型的区分能力。

❓

延伸问答

In-batch Negatives策略的核心是什么？

In-batch Negatives策略的核心是在一个Batch内同时基于多个负例进行梯度更新。

使用In-batch Negatives策略的优势有哪些？

该策略能充分利用现有数据，减少负样本准备的投入，同时提升模型的区分能力。

训练模型时使用了多少数据？

训练使用了8000万条数据。

模型评估使用了哪些指标？

模型评估使用Recall@1、Recall@5等指标。

In-batch Negatives策略如何影响模型效果？

经过大规模训练的模型效果优于未大规模训练的模型，提升了模型的召回能力。

训练过程中使用了哪个基础模型？

训练使用了rocketqa-zh-mini-query-encoder作为基础模型。

🏷️

标签

推荐系统搜索引擎模型训练语义索引负样本

➡️

继续阅读

HuggingFace CEO力荐，Bengio团队也押注：这个1500美元训出的HRM模型，凭什么火了？
HRM-Text是一个约1B参数的小型模型，训练成本仅1500美元，采用分层递归推理架构，强调在输出前进行深层内部计算。与传统大模型不同，HRM-Text...
好莱坞的未来不在于简单地向普通生成性人工智能模型输入提示
好莱坞的未来不在于单纯使用生成性人工智能（AI）模型。尽管AI被认为能革新电影行业，但目前大多数项目仍缺乏吸引力。2023年特里贝卡电影节展示了一些实验性...
Claude Fable在一次编码测试中花费9美元，而GPT-5.5则花费1.50美元。模型筛选是新的AI技能。
文章讨论了人工智能（AI）模型的选择和使用策略，强调掌握AI技能的重要性。Anthropic公司因遵循美国政府的出口控制指令，暂时禁用了Fable 5和M...
Agent终于长出了身体：Jiuwen Symbiosis背后的思考与实践
当前AI的最大局限在于缺乏身体，无法与物理世界互动。openJiuwen社区推出Jiuwen Symbiosis架构，旨在赋予AI感知和行动能力，推动数字...
美国下令停用Fable 5：一个小漏洞引发的模型下架风波
美国政府以国家安全为由，暂停外国人使用Anthropic的Fable 5和Mythos 5模型。公司认为这是误解，正在努力恢复访问。这一事件反映了技术安全...
应美国政府网络安全风险要求 Claude Fable/Mythos 5模型已暂停访问
A社因美国政府的网络安全要求，全球撤回Claude Fable/Mythos 5模型的访问，禁止所有外国公民使用。A社对政府的出口管制表示不满，认为缺乏透...