小红花·文摘

大型语言模型如何选择词汇：Logits、Softmax与采样的实用指南

MachineLearningMastery.com ·

理解变换器中的文本生成参数

MachineLearningMastery.com ·

使用最大堆优化 Top K 元素问题

DEV Community ·

该研究提出了一种改进的稀疏自编码器方法BatchTopK，通过放宽top-k约束，提升了重构效果，同时保持了平均稀疏度。实验结果表明，BatchTopK在重构激活方面优于传统TopK SAEs，并与JumpReLU SAEs的性能相当。

批量TopK稀疏自编码器

BriefGPT - AI 论文速递 ·

本文探讨了如何通过放宽Top-K精确要求来提高在高度并行的机器学习加速器上的并行性。研究表明，近似Top-K算法能有效提升稀疏性算法在语言模型中的性能。

Bucket-Based Approximate Top-K Algorithms for Enhanced Parallelism

BriefGPT - AI 论文速递 ·

本文提出了多种改进的采样算法，以提升神经语言模型生成自然语言文本的能力，包括改进的 top-p 和 top-k 算法、eta-sampling、自适应温度采样等。这些方法通过动态调整参数和优化策略，显著提高了生成文本的质量和多样性。

高温下的创造力与连贯性的平衡：最小 P 采样

BriefGPT - AI 论文速递 ·

TopK算法用于在未排序的数组中找到最大或最小的K个元素。常见的两种CPU TopK算法是O(N + KlogN)和O(N)算法。第一种算法使用堆构建和堆提取操作，时间复杂度为O(N + KlogN)。第二种算法使用中位数选择算法和线性扫描或分区算法，时间复杂度为O(N)。两种算法都可以在C++中实现。

CPU TopK算法

Lei Mao's Log Book ·

本文介绍了使用ChatGPT接口或本地部署LLM大模型时常用的三个参数：temperature、top_k和top_p，它们可以影响模型输出的随机性和候选词选择。同时提供了调参建议和注意事项。

LLM探索：GPT类模型的几个常用参数 Top-k, Top-p, Temperature

dotNET跨平台 ·