小红花·文摘

评估了7个大型语言模型在多语言和代码混合通信环境中的情感分析性能，发现GPT-4和GPT-4-Turbo在理解语言输入和处理上下文信息方面表现出色，但在非英语环境中的文化细微差别方面存在不稳定性。结果强调了LLMs需要不断改进以应对真实世界环境的文化差异和资源有限性。