小红花·文摘

FS-DFM：基于少步扩散语言模型的快速准确长文本生成

Apple Machine Learning Research ·

字节与复旦大学研究人员提出了自适应推理框架CAR，该框架根据模型困惑度动态选择短回答或长文本推理，以平衡准确性与效率。研究表明，长CoT推理并不总能提高准确率，甚至可能降低简单任务的处理能力。CAR在低置信度时使用长推理，高置信度时直接输出短回答，显著提升了多模态视觉问答和信息提取任务的表现。

低Token高精度！字节复旦推出自适应推理框架CAR

量子位 ·

本研究提出了一种名为稀疏注意力混合（MoSA）的方法，旨在降低大型语言模型自注意力计算的复杂度。MoSA通过动态选择注意力头的标记，显著提高模型性能，在相同计算预算下，困惑度比稠密基线高出27%。

Mixture of Sparse Attention: Content-Based Learnable Sparse Attention via Expert-Choice Routing

BriefGPT - AI 论文速递 ·

逐字生成非最优？试试逐「块」生成！Block Diffusion打通了自回归与扩散

机器之心 ·

随着大模型在长文本处理任务中的应用日益广泛，如何客观且精准地评估其长文本能力已成为一个亟待解决的问题。

机器之心 ·

本研究提出了一种层敏感的量化方法，解决了现有方法在处理大规模神经网络时未考虑各层量化难度的问题。通过识别量化困难的层并分配更多内存预算，提出了SensiBoost和KurtBoost方法，显著提高了量化精度，在LLama模型上实现了9%的困惑度提升，仅增加2%的内存预算。

Towards Superior Quantization Accuracy: A Layer-Sensitive Approach

BriefGPT - AI 论文速递 ·

ChamaleonLLM：推理过程中大型语言模型的动态适应

DEV Community ·

本研究提出了一种新的模型——困惑度注意力加权网络（PAWN），用于检测人工智能生成的文本。该模型通过加权特征显著提升检测性能，具有良好的适应性和鲁棒性，能够在资源要求减少的情况下应对分布变化。

Not All Tokens Are Created Equal: Perplexity Attention Weighted Networks for AI-Generated Text Detection

BriefGPT - AI 论文速递 ·

本研究提出了一种新方法，通过增强大型语言模型的关键值缓存，解决其在处理复杂问题时的延迟和优化困难。该方法使模型能够以可微分的方式学习提炼额外计算，从而显著降低推理任务中的困惑度并提高性能。

Deliberation in Latent Space via Differentiable Cache Augmentation

BriefGPT - AI 论文速递 ·

本文介绍了一种作者归属方法——作者语言模型（ALMs），通过调整语言模型的困惑度来识别文档作者。基准测试显示，ALMs在Blogs50数据集上的宏平均准确率为83.6%，在CCAT50上为74.9%。短文本测试表明，Blogs50需要40个词元和CCAT50需要400个词元才能达到70%的准确率。

一种贝叶斯方法：利用大型语言模型进行作者归属

BriefGPT - AI 论文速递 ·

该研究探讨了开放式文本生成中模型质量评估的挑战，提出了一种基于偏序的基准方法和新的总结指标，以平衡连贯性、多样性和困惑度，从而提供更全面的质量评估。

Towards Better Open-Ended Text Generation: A Multi-Criteria Evaluation Framework

BriefGPT - AI 论文速递 ·

本研究提出了一种新的混合专家模型方法，称为笛卡尔乘积路由（CartesianMoE），解决了专家之间知识共享不足的问题。实验结果表明，该方法在困惑度和下游任务性能上优于传统模型，并增强了专家路由的鲁棒性。

CartesianMoE：通过笛卡尔乘积路由提升专家之间的知识共享

BriefGPT - AI 论文速递 ·

本研究提出了一种高效方法，通过对训练语料的子集进行训练和评估，实现数据消融的近似。发现单个模型在候选数据集上的困惑度与不同数据分割上训练的模型参数平均困惑度密切相关。此方法提升了训练效率，并为模型性能改进提供新途径。

通过模块化训练和合并实现语言模型的可扩展数据消融近似

BriefGPT - AI 论文速递 ·

本研究解决了语言建模中规划模块与语言模型无法共同微调的问题。通过使用预测标签概率作为混合权重的方法，实现共同训练，优化标签分布。实验结果显示，该方法在困惑度上有明显改善。

端到端规划器训练用于语言建模

BriefGPT - AI 论文速递 ·

本研究提出了一种插拔式性能估计方法，利用少量未标记样本解决大语言模型在不同任务和上下文中的性能差异问题。通过负对数似然和困惑度优化LLM服务的选择和使用。

无需依赖标记数据的LLM服务插拔性能估计

BriefGPT - AI 论文速递 ·

该研究将预训练的神经语言模型与$k$最近邻居模型线性插值，提高了Wikitext-103 LM的困惑度2.9点至15.79，无需额外训练。该方法在扩展到更大的训练数据和实现领域自适应方面也表现出良好效果。作者认为最近邻搜索是长尾系统的有效语言建模方法。

本论文研究了循环神经网络语言模型（RNNLMs）的规模特性，讨论了在GPU上训练大型RNN的方法，并探讨了模型大小、训练集大小、计算成本和内存方面的扩展性问题。研究结果显示，RNNLMs在标准测试中的困惑度较低，相比于N元模型。此外，研究者训练了目前已知的最大RNN，在ASR任务中表现出18%的相对词误差率提升，并在最近发布的十亿字语言建模基准测试中表现出新的最低困惑度、机器翻译的1 BLEU点表现提升以及词预测方面的17%相对命中率提高。