Are Vision-Language Models Ready for Dietary Assessment? Exploring the New Frontier of AI-Driven Food Image Recognition
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究评估了六种视觉-语言模型在食品图像识别中的能力,提出了食品图像数据库FoodNExTDB,并引入专家加权召回率作为评估指标。结果表明,封闭源模型在简单食品识别中表现良好,但在细粒度识别上仍存在困难,影响其在自动饮食评估中的可靠性。
🎯
关键要点
- 本研究评估了六种视觉-语言模型在食品图像识别中的能力。
- 研究提出了食品图像数据库FoodNExTDB。
- 引入专家加权召回率作为评估指标。
- 结果显示封闭源模型在简单食品识别中表现良好。
- 在细粒度识别上,封闭源模型仍存在困难。
- 细粒度识别的困难影响了模型在自动饮食评估中的可靠性。
➡️