读:LLM 生产环境六种失败原型——基准测试无法预测的那些故障

📝

内容提要

* 引子:92% 的模型为什么在真实对话中撑不过 5 轮 有一家公司的选 LLM 流程是这样的:看基准测试分数。GPT-4 92%,Claude 89%,选了 GPT-4。理由很简单,92 大于 89。上线两周后,客服聊天机器人开始做奇怪的事。前三个问题回答完美,第四轮突然忘了用户叫什么,第五轮开始自相矛盾,第六轮开始编造公司根本不存在的功能。它的"Premium Diamond...

🏷️

标签

➡️

继续阅读