OneFlow深度学习框架 ·

LLM长上下文RAG能力实测：GPT o1 vs Gemini

💡 原文中文，约6000字，阅读约需15分钟。

📝

内容提要

本文探讨了检索增强生成（RAG）技术在AI工作流中的应用，分析了OpenAI的o1模型与Google的Gemini 1.5模型在长上下文RAG任务中的表现。研究发现o1模型性能优于其他模型，而Gemini 1.5在极长上下文下表现稳定，为开发者构建RAG系统提供了参考。

🎯

关键要点

本文探讨了检索增强生成（RAG）技术在AI工作流中的应用。
分析了OpenAI的o1模型与Google的Gemini 1.5模型在长上下文RAG任务中的表现。
o1模型在长上下文RAG基准测试中表现优于其他模型。
Gemini 1.5在极长上下文下表现稳定，支持最高200万词元。
不同模型在长上下文RAG任务中表现出不同的失败模式。
检索更多文档有助于提升LLM的回答准确性。
长上下文并不总是最优解，部分模型在特定上下文长度后性能下降。
OpenAI o1-preview和o1-mini模型在长上下文RAG基准测试中超越其他模型。
Gemini 1.5模型在超长上下文下保持一致性能，但整体准确率较低。
模型在长上下文RAG任务中的失败模式包括重复内容、随机内容、未遵循指令等。
强大的基准测试和评估工具对开发复杂AI系统至关重要。

❓

延伸问答

什么是检索增强生成（RAG）技术？

检索增强生成（RAG）技术是一种在AI工作流中应用的技术，通过检索相关文档来增强生成模型的回答能力。

OpenAI的o1模型在长上下文RAG任务中的表现如何？

OpenAI的o1模型在长上下文RAG基准测试中表现优于其他模型，支持最高128k词元的上下文长度。

Gemini 1.5模型在极长上下文下的表现如何？

Gemini 1.5模型在最高200万词元的极长上下文下表现稳定，但整体准确率较低。

不同模型在长上下文RAG任务中有哪些失败模式？

不同模型在长上下文RAG任务中的失败模式包括重复内容、随机内容、未遵循指令、空响应和错误答案等。

长上下文对RAG系统的影响是什么？

长上下文并不总是最优解，部分模型在特定上下文长度后性能会下降，因此需要谨慎选择上下文长度。

如何提升LLM的回答准确性？

检索更多文档有助于提升LLM的回答准确性，因为更多的信息可以提高正确答案的可能性。

🏷️

继续阅读

原华为盘古大模型负责人王云鹤离职创业；苹果硬件负责人启动重大重组；OpenAI联合创始人加入Anthropic
近期多家科技公司高管频繁变动。华为盘古大模型负责人王云鹤离职创业，成立新公司“基元律动”；阿里副总裁张凯夫也离职创业，专注市场行为预测；苹果硬件部门进行重...
真重置！Codex因昨日连续发生的多次故障重置本周额度继续向后顺延7天
OpenAI的Codex于早上8点半完成了本周的额度重置，以补偿前一天的故障，这些故障影响了ChatGPT的登录和API调用。重置仅限于付费用户，下一次重...
OpenAI合并ChatGPT和Codex，AI超级App路线浮出水面！
OpenAI合并了ChatGPT和Codex，推出了AI超级App，Codex用户已超过500万，其中20%为非开发者。新功能包括角色插件、网站和批注，旨...
派早报：豆包确认将推出付费版服务、樱桃发布 UWB 键盘等
豆包计划推出专业版服务，涵盖软件开发和数据分析，同时保持免费功能。Kimi Work正在测试中，支持创建子Agent以处理复杂任务。OpenAI扩展Cod...
Kakapo：使用 Wails v3、Go 和 Echo 构建一个本地翻译工作台
Kakapo 是一款基于 Wails v3 和 Go 的桌面翻译工具，整合多个 OpenAI 兼容模型，提供翻译、比较和历史记录功能。它解决了传统翻译工具...
Codex大部分账号已经无需绑定或验证手机号但仍有部分账号还需验证
OpenAI 最近解除大部分 Codex 账号的手机号码验证，用户可直接登录。此举引发争议，部分用户仍需验证。客户支持反应缓慢，未能明确解释验证原因。Ch...