本研究探讨了大型语言模型(LLMs)在主观标签任务中的潜力与限制,发现其在分类和推理能力上与人类分析师存在显著差异。尽管LLMs在事实检查中表现出一定能力,但在处理中文和虚构信息时面临挑战,且在高风险环境中不应被视为可靠替代品。研究还提出了改进LLMs准确性的潜在解决方案。
完成下面两步后,将自动完成登录并继续当前操作。