小红花·文摘

本文介绍了LLMMaps作为评估大型语言模型（LLM）性能的新技术，支持分层评估和风险分析。研究开发了AI Threads对话机器人，增强了可视化分析能力，并展示了其在不同数据集上的应用。此外，提出了V-RECS视觉推荐系统和VisEval基准，解决了LLM在可视化任务中的挑战，评估了多种模型的表现，并指出了未来研究方向。