本研究解决了现代汽车对话系统中由于大语言模型引发的错误问题,尤其是虚假信息和事实不准确的问题。提出了一种自动事实基准测试的方法,并通过五种基于大语言模型的技术来评估汽车问答系统的事实正确性。实验结果表明,该方法显著提高了与专家评估的一致性,具有90%以上的事实正确率,同时响应时间平均为4.5秒,展示了LLM测试在验证对话系统事实正确性方面的有效性。
本研究提出了一种自动化的事实基准测试方法,旨在解决汽车对话系统中大语言模型导致的虚假信息问题。实验结果表明,该方法的事实正确率超过90%,平均响应时间为4.5秒,验证了其有效性。