小红花·文摘

研究分析大型语言模型在多语言环境中的评估不足，特别是在印度患者使用医疗聊天机器人的情况下。评估24个模型后，提出了统一的检索增强生成框架。结果显示，模型在印度语言查询中表现差异大，并在文化和语言混合查询上遇到挑战，指出了改进健康聊天机器人的潜力。