大语言模型(LLMs)在聊天中的应用已成为日常生活的一部分,但其回答常常是错误的,限制了其实际应用。近年来,对评估和改进LLM准确性的研究引起了关注。本调查分析了现有工作,确定了主要挑战和改进LLM的潜在解决方案,并探讨了开放式文本生成的自动准确性评估的障碍和未来研究方向。
这篇文章介绍了哈佛大学CS50课程中应用生成式人工智能工具的效果和学生反响。工具包括代码片段解释、代码风格改善和聊天机器人等。学生认为这些工具有助于解决问题和提升学习体验。文章还提到了AI工具的准确性评估和未来发展方向。
本文介绍了一个包含983个电子病历数据的自然语言指令的基准数据集MedAlign,用于评估医疗保健领域的大型语言模型(LLMs)的准确性和质量。通过评估6个通用领域的LLMs,发现高错误率和GPT-4在文本长度从32k到2k时准确率下降了8.3%。同时,还报告了医生排名和自动化自然语言生成度量之间的相关性,以一种无需人工审查的方式对LLMs进行排名。
完成下面两步后,将自动完成登录并继续当前操作。