构建知识:探索基于聊天的搜索引擎的创造性机制

原文约300字,阅读约需1分钟。发表于:

该研究揭示了基于大型语言模型的聊天搜索引擎在选择信息来源时偏好可读性强、结构规范、同时具有较低困惑度的文本,这种文本偏好在 Bing 聊天和 RAG API 中一致出现,暗示这种文本偏好是由底层语言模型自发形成的。此外,研究还发现 RAG 技术引用的网站之间的相似性较传统搜索引擎排名最高的网站之间更为相似。

通过训练知识矿工自动提取问题和答案对,并与对话数据集结合进行微调,提高了大型语言模型的专业知识和对话能力。该模型在新的评估基准上有显著性能改进,并且只需要最少的种子实例,为模型合成的训练数据提供了自我改善的可能性。

相关推荐 去reddit讨论