ByteByteGo Newsletter ·

DoorDash如何利用人工智能模型理解餐厅菜单

💡 原文英文，约2000词，阅读约需8分钟。

📝

内容提要

DoorDash利用大型语言模型（LLMs）自动将餐厅菜单照片转化为结构化数据，解决菜单更新问题。团队设计了“护栏模型”，确保转录的准确性，结合OCR与LLM的优点，提高了效率和准确性。

🎯

🔎

DoorDash在将餐厅菜单照片转化为结构化数据时，面临着菜单结构不一致、照片质量低和菜单不完整等问题。这些挑战使得传统的OCR和LLM方法在实际应用中效果不佳，强调了在复杂环境中使用人工智能的局限性。

DoorDash的护栏模型通过结合图像特征、OCR输出和LLM结果，提升了转录的准确性。这种多视角的评估方法不仅提高了效率，还确保了最终数据的质量，展示了在自动化过程中引入人机协作的重要性。

随着多模态LLM的出现，DoorDash能够更好地处理复杂的菜单布局。这种新技术在理解上下文和布局方面表现出色，但在处理低质量照片时仍然存在脆弱性。未来的研究可以集中在如何平衡这两种模型的优缺点上。

❓

DoorDash利用大型语言模型（LLMs）将餐厅菜单照片转化为结构化数据，自动化菜单更新过程。

护栏模型是一个分类器，用于预测菜单照片转录的准确性，决定是否需要人工干预。

主要挑战包括菜单结构不一致、菜单不完整和照片质量低。

护栏模型结合了图像特征、OCR输出特征和LLM输出特征，以评估转录的可靠性。

DoorDash建立了一个生产管道，自动处理简单案例，同时将复杂案例交给人工审核。

未来机会包括领域微调、上游质量控制和护栏模型的改进，以推动安全自动化的发展。

🏷️