小红花·文摘

本研究探讨了大型语言模型（LLMs）在主观标签任务中的潜力与限制，发现其在分类和推理能力上与人类分析师存在显著差异。尽管LLMs在事实检查中表现出一定能力，但在处理中文和虚构信息时面临挑战，且在高风险环境中不应被视为可靠替代品。研究还提出了改进LLMs准确性的潜在解决方案。