小红花·文摘

本文讨论了后训练中的强化学习，重点介绍马尔可夫决策过程（MDP）、轨迹、回报、策略、价值函数和优势函数。强调了在语言模型生成中，奖励通常在序列末尾出现，导致信用分配和稀疏奖励问题。通过定义和贝尔曼期望方程，探讨了将语言生成视为MDP及其策略优化的挑战。

【强化学习与大模型后训练】02｜MDP、回报与贝尔曼方程

土法炼钢兴趣小组的博客 ·

LiveKit 介绍了增强 AI 语音代理真实感的技术

实时互动网 ·

LLM与NLP的比较

DEV Community ·

本文讨论了视觉语言模型中的视觉幻觉问题，提出了一种新方法——感知放大器（PM），通过迭代隔离相关视觉标记并放大区域，增强模型的视觉分析能力，从而提高语言生成的准确性和合理性。

Through the Magnifying Glass: Adaptive Perception Magnification for Hallucination-Free VLM Decoding

BriefGPT - AI 论文速递 ·

蚂蚁医疗大模型在MedBench评测中获得双料冠军，得分分别为97.5和98.2。该模型在医学问答和语言生成等领域表现出色，具备多模态交互能力。自2023年进入医疗AI领域以来，已服务近3000万人次，推动了多个智能医疗应用的研发。

蚂蚁医疗大模型拿下MedBench测评“双料”冠军，原生多模态+千亿数据

量子位 ·

本研究提出熵-UID方法，以解决语言生成模型中的信息流不平衡和效率低下问题。该方法通过自适应调整标记选择，提升文本生成的自然性和流畅性。实验结果表明，该方法在多个数据集上表现优异。

熵-统一信息密度（Entropy-UID）：优化信息密度的方法

BriefGPT - AI 论文速递 ·

本研究提出了一种新的上下文感知语义重组机制（CASRM），旨在提升大型语言生成模型的连贯性和上下文适应性。实验结果表明，该机制显著改善了生成文本的质量，并减轻了错误传播的影响。

面向上下文的语义重组机制在大型语言模型中的应用

BriefGPT - AI 论文速递 ·

该研究探讨了语言生成中的一致性与广度之间的权衡，分析了现有算法的局限性，并提出了一种新方法，通过引入更弱的Angluin条件，严谨表征近似广度与完全生成的等价性，揭示了稳定与不稳定生成的显著差异，推动了理论发展。

Study on the Characteristics of Breadth in Language Generation

BriefGPT - AI 论文速递 ·

国内初创公司阶跃星辰的Step-2大模型在LeCun推出的LiveBench榜单中获得全球第一和国产第一，展现出其在指令跟随和语言生成方面的强大能力。该模型采用自主研发的MoE架构，参数量达到万亿级，体现了卓越的技术实力和创新潜力。

国产模型指令跟随全球第一！来自LeCun亲推的「最难作弊」大模型新榜单

量子位 ·

本研究提出了多种基于扩散模型的语言生成方法，如Diffusion-LM、DiffusionBERT和EDLM，显著提升了文本生成的质量和速度。实验结果显示，这些模型在细粒度控制任务和基准测试中表现优异，尤其在减少采样步骤时性能提升明显。

基于PLM的离散扩散语言模型与熵自适应Gibbs采样

BriefGPT - AI 论文速递 ·

论文介绍了一种“Talker-Reasoner”架构，模拟人类快慢思维。该架构由“Talker”模块快速生成语言和“Reasoner”模块进行深入推理组成。实验显示，这种方法在语言生成、问答和常识推理任务中优于传统模型，但未详细讨论实际挑战和伦理问题。总体而言，该架构为AI模拟人类认知提供了新思路，值得进一步研究。

AI 说话者-推理者：模拟人类的快思与慢思

DEV Community ·

本文探讨了大型语言模型（LLMs）在记忆和推理方面的表现及其对语言生成的影响。研究表明，LLMs通过优化方法提高情境理解，并在记忆容量和认知表现上取得显著进展。实验发现，记忆效应与上下文推理的明确区分有助于分析模型的推理模式。此外，研究揭示了LLMs与人类决策之间的对齐问题，为LLMs应用的设计和开发提供了重要启示。