本研究提出了一种评估框架,针对大型语言模型在商业智能应用中的语义幻觉和结构错误问题。通过对219个自然语言商业问题的基准评估,发现Exaone 3.5在简单任务中表现良好,但在复杂任务中显著退化,强调了验证事实一致性的必要性。
完成下面两步后,将自动完成登录并继续当前操作。