小红花·文摘 - 小红花技术领袖俱乐部

语言模型的蜂巢思维

语言模型的蜂巢思维

Finisky Garden ·

本研究提出了一种好奇心驱动的强化学习框架（CD-RLHF），旨在解决人类反馈强化学习中输出多样性降低的问题。实验结果表明，CD-RLHF在多个任务上显著提升了输出多样性，同时与人类偏好的对齐效果相当。

Curiosity-Driven Reinforcement Learning Based on Human Feedback

BriefGPT - AI 论文速递 ·

本研究通过增加随机性、促进多样化视角的回答和整合多个模型输出，显著提升了大型语言模型的输出多样性，达到了人类水平，对AI政策具有重要意义。

生成多样性：提升大型语言模型的输出多样性

BriefGPT - AI 论文速递 ·

本文提出了一种名为 FECS 的新解码方法，用于解决自然语言生成任务中的幻觉问题。该方法通过上下文感知的正则化项来增强语义上与来源相似的标记，同时惩罚生成文本的重复性。在抽象化摘要和对话生成两个任务中，FECS 显示出了有效性。结果表明，FECS 能够持续提升忠实度，同时保持输出多样性。

丰富保真度的对比搜索：在文本生成中协调忠实度与多样性的权衡

BriefGPT - AI 论文速递 ·