小红花·文摘

本文介绍了自动细粒度幻觉检测任务，并创建了六种幻觉类型的分类法。研究发现，ChatGPT和Llama 2-Chat的输出中分别有60%和75%的幻觉。为解决此问题，训练了FAVA模型，通过合成数据来检测和纠正幻觉。FAVA在基准测试中表现优于ChatGPT，文本准确性提高，FActScore提升了5-10%。

FaithBench：现代大型语言模型的多样化幻觉基准

BriefGPT - AI 论文速递 ·

本文介绍了自动细粒度幻觉检测任务和一个新的综合分类法。研究结果显示ChatGPT和Llama 2-Chat的输出中有60%和75%的幻觉，其中大多数属于未被充分研究的类别。为了解决这个问题，研究者训练了FAVA，一个通过合成数据生成来检测和纠正细粒度幻觉的检索增强的语言模型。在基准测试中，FAVA在细粒度幻觉检测方面明显优于ChatGPT，且提高了语言模型生成文本的准确性。

RefChecker：基于引用的细粒度幻觉检查器和大语言模型基准

BriefGPT - AI 论文速递 ·

本文提出了自动细粒度幻觉检测任务和综合分类法。研究结果显示ChatGPT和Llama 2-Chat的输出中有60%和75%的幻觉。研究者通过训练FAVA解决了这个问题，FAVA在细粒度幻觉检测方面明显优于ChatGPT，并改进了语言模型生成文本的准确性。

通过精细的人工智能反馈检测和缓解大型视觉语言模型中的幻觉

BriefGPT - AI 论文速递 ·

Amazon Bedrock 现已支持访问 Meta 的 Llama 2 Chat 13B 模型

亚马逊AWS官方博客 ·

Meta宣布开源大语言模型Llama2，包含不同尺寸的模型，并提供适配对话场景的优化模型Llama-2-Chat。Llama2可免费用于研究和商业用途。Llama-2-Chat在评测指标上超过其他开源对话模型，并与一些闭源模型相差不大。阿里云机器学习平台PAI推出了针对Llama2的最佳实践，帮助开发者快速部署WebUI。部署步骤简单明了，包括配置关键参数、部署服务和启动WebUI进行模型推理。

快速玩转 Llama2！机器学习 PAI 最佳实践（三）—快速部署WebUI

阿里云云栖号 ·