Elastic Blog - Elasticsearch, Kibana, and ELK Stack ·

一年和一百万条消息后：在Elasticsearch平台上构建AI助手的经验教训

💡 原文英文，约1800词，阅读约需7分钟。

📝

内容提要

Elastic团队在过去一年中开发了多个AI助手，处理了超过一百万条消息。关键经验包括：日志是评估AI性能的重要资产，用户采用不均衡，复杂查询需求增加，检索相关性影响答案质量，设置信心阈值可揭示知识盲点。高令牌计数与用户满意度正相关，表明深度会话能提高质量。

🎯

关键要点

Elastic团队在过去一年中开发了多个AI助手，处理了超过一百万条消息。
日志是评估AI性能的重要资产，能够捕捉系统行为和应用上下文。
用户采用不均衡，约8%的用户生成了80%的会话，显示出强用户与普通用户之间的差距。
复杂查询需求增加，用户对详细技术指导的需求上升。
检索相关性影响答案质量，部分检索会导致答案质量下降。
设置信心阈值可揭示知识盲点，未能检索到结果的查询直接反映了用户需求未满足。
高令牌计数与用户满意度正相关，深度会话能提高质量，表明高价值的工程工作与高准确性相关。

🔎

延伸解读

日志的重要性

在构建AI助手的过程中，日志被视为评估AI性能的战略资产。通过分析日志，团队能够捕捉系统行为和用户需求，从而优化AI的响应质量。这表明，重视日志数据的收集和分析是提升AI系统有效性的关键。

用户采用的差异

用户对AI工具的采用存在显著差异，约8%的用户贡献了80%的会话。这种现象表明，团队需要关注核心用户的需求，确保知识库的更新与用户的成长相匹配，以提升整体用户体验。

检索相关性与答案质量

检索的相关性直接影响AI助手的答案质量。研究发现，部分检索的结果往往导致更低的答案质量，因此设定严格的信心阈值是必要的。这可以帮助团队识别知识盲点，进而优化知识库。

高令牌计数的误解

高令牌计数并不总是成本问题，反而与用户满意度正相关。深度会话通常意味着用户在进行高价值的工程工作，因此，团队应关注这些会话的质量，而不是单纯追求降低令牌使用。

❓

延伸问答

Elastic团队在过去一年中开发了哪些AI助手？

Elastic团队开发了客户支持助手、内部支持助手、案例摘要助手、知识草拟助手和销售助手等多个AI助手。

如何评估AI助手的性能？

通过分析日志数据，提取系统行为和应用上下文，使用情感分析模型评估响应质量和准确性。

用户对AI助手的采用情况如何？

用户采用不均衡，约8%的用户生成了80%的会话，显示出强用户与普通用户之间的差距。

复杂查询需求对AI助手的影响是什么？

复杂查询需求增加，用户对详细技术指导的需求上升，反映出用户对AI助手的期望提高。

设置信心阈值有什么重要性？

设置信心阈值可以揭示知识盲点，未能检索到结果的查询直接反映了用户需求未满足。

高令牌计数与用户满意度之间有什么关系？

高令牌计数与用户满意度正相关，深度会话能提高质量，表明高价值的工程工作与高准确性相关。

🏷️