小红花·文摘

一次吃下一本书！百度开源新OCR，作者疑似前DeepSeek研究员

量子位 ·

Redis之父antirez发布DeepSeek V4 Flash专用推理引擎，128GB MacBook本地跑284B参数大模型

dotNET跨平台 ·

本文提出了多种改进Transformer模型的注意力机制，包括线性统一嵌套注意力机制Luna、门控循环模型GateLoop和门控线性注意力（GLA），这些方法在性能和内存成本上均有显著提升。ViG模型在计算机视觉任务中表现优异，具有效率和可扩展性。

门控插槽注意力用于高效线性时间序列建模

BriefGPT - AI 论文速递 ·

本文探讨了大型语言模型（LLMs）对世界信念的表达及其置信度评估，提出了准确度、连贯性、一致性和应用等标准来评估不同置信度估计方法的有效性。实验结果表明，训练的隐藏状态探针提供了最可靠的置信度估计，但在语义等效输入下，模型的置信度表现不稳定，显示出改进的空间。此外，研究还探讨了引用方法在长文档处理中的应用，提出了自信度引出方法及其优缺点，并强调了对模型置信度的重新校准。

关于对大型语言模型的置信度归属

BriefGPT - AI 论文速递 ·