小红花·文摘

本研究提出了一种评估框架，针对大型语言模型在商业智能应用中的语义幻觉和结构错误问题。通过对219个自然语言商业问题的基准评估，发现Exaone 3.5在简单任务中表现良好，但在复杂任务中显著退化，强调了验证事实一致性的必要性。