小红花·文摘

Zixi与Comcast Technology Solutions合作，为线性广播公司提供统一的视频供应链分发服务

实时互动网 ·

在上一篇文章《MuP之上：1. 好模型的三个特征》中，我们提出了前向稳定性、依赖稳定性、更新稳定性这三个核心指标，并给出了相应的数学定义。同时，我们提出以它们是否满足$\Theta(1)$来刻画...

MuP之上：2. 线性层与最速下降

科学空间|Scientific Spaces ·

从线性回归到XGBoost：性能对比分析

MachineLearningMastery.com ·

变换器模型中的线性层和激活函数

MachineLearningMastery.com ·

本研究针对现有语言模型在处理长距离上下文时的复杂度问题，提出了名为RWKV-X的混合架构。该模型结合了RWKV在短距离建模的高效性和稀疏注意力机制，从而在训练时实现线性时间复杂度，并在推理解码时达到恒定时间复杂度。RWKV-X的实验结果显示其在64K令牌检索基准测试中接近完美准确度，并在长上下文基准上持续超越之前的RWKV-7模型，为通用语言建模提供了高效的基础架构。

RWKV-X：一种线性复杂度的混合语言模型

BriefGPT - AI 论文速递 ·

线性分析

DEV Community ·

本研究探讨了投影贝尔曼方程（PBE）的理论性质及求解算法，提出了PBE解的两个充分条件，并分析了SNRDD假设与线性Q学习和近似值迭代的收敛性关系。

理解投影贝尔曼方程、线性Q学习和近似值迭代的理论属性

BriefGPT - AI 论文速递 ·

屋顶线性能模型通过比较应用性能与机器能力，识别软件实现和架构设计中的瓶颈。模型中，x轴表示算术强度，y轴表示计算性能。应用性能受内存带宽和处理器峰值性能限制，低算术强度时受内存限制，高算术强度时受处理器限制。实际应用性能通常低于理论峰值，可能因内存带宽或处理器未充分利用。

屋顶线性能模型

Lei Mao's Log Book ·

本研究针对线性序列建模和专家混合模型的融合提出了Linear-MoE，填补了大型模型训练和建模的效率与性能之间的差距。该系统利用线性复杂度序列建模的优势及专家混合层的稀疏激活，显著提高了训练效率和模型性能。实验结果表明，Linear-MoE在维持竞争力性能的同时，实现了效率提升，展现了作为下一代基础模型架构的潜力。

线性-MoE：线性序列建模与专家混合的结合

BriefGPT - AI 论文速递 ·

本研究探讨大型语言模型（LLMs）如何在激活空间中反映美国政治中的不同政治观点，尤其是自由主义与保守主义之间的差异。通过分析模型的注意力机制，我们发现LLMs对政治意识形态具有线性表示，且可以通过线性干预改变模型生成文本的政治倾向。该研究显示了LLMs在理解和生成与人类政治观点相关的文本方面的潜力。

大型语言模型中的政治观点线性表示

BriefGPT - AI 论文速递 ·

首个基于统计学的线性注意力机制ToST，高分拿下ICLR Spotlight

机器之心 ·

本研究提出了一种线性注意力方法L$^2$ViT，旨在解决视觉变换器在高分辨率图像应用中的时间和内存复杂性问题。该架构在保持线性计算复杂度的同时，有效捕捉全局和局部特征，实验结果显示其在图像分类任务中达到84.4%的Top-1准确率。

视觉变换器中的线性注意力复兴

BriefGPT - AI 论文速递 ·

本研究首次明确了带有线性时态逻辑LTL运算符的Datalog查询的数据复杂性，结果显示LogSpace为PSpace完全，而AC0、ACC0和NC1的判断可在ExpSpace中完成，揭示了复杂查询的可计算性边界。

关于决定具有LTL运算符的线性单子Datalog查询的数据复杂性（扩展版）

BriefGPT - AI 论文速递 ·

本研究针对大型语言模型（LLM）在部署过程中的参数庞大问题，提出了一种新的方法，称为TARDIS，通过将非线性激活函数部分线性化以实现参数减少。实验结果表明，TARDIS在前馈网络中可实现80%的参数减少，并在准确性上显著优于现有的剪枝方法，达到65%的提升，展示了其在加速大型语言模型推理过程中的潜在影响。

通过部分线性前馈网络加速大型语言模型

BriefGPT - AI 论文速递 ·

本研究提出了“神经元经验梯度”概念，解决了神经元激活与模型输出关系量化的问题。通过NeurGrad方法高效计算这些梯度，实验表明其能够有效捕捉知识，揭示技能神经元的高效性和通用性，对理解预训练语言模型的知识存储机制具有重要意义。

神经元经验梯度：连接神经元的线性可控性与表征能力

BriefGPT - AI 论文速递 ·

理解O(N)：算法中的线性时间复杂度

DEV Community ·

简单的力量：利用线性回归预测房价

DEV Community ·

本文研究了在Wasserstein空间中进行统计分析的复杂性，并提出通过使用线性最优传输（LOT）来解决这一问题。研究表明，LOT嵌入能够有效描述数据，并通过对2-Wasserstein空间中度量的Fréchet方差分解，量化了LOT嵌入解释的方差百分比，验证了其在分类准确性和方差解释能力方面的有效性。

带线性最优传输的融合Gromov-Wasserstein方差分解

BriefGPT - AI 论文速递 ·

本研究提出线性情感空间（LES）和跨维注意力网络（CDAN），以解决一体化虚拟人物生成模型在细粒度情感编辑中的不足。实验结果表明，该方法在视觉质量和可控性方面优于主流技术。

LES-Talker：线性情感空间中可控的细粒度情感编辑与虚拟人物生成

BriefGPT - AI 论文速递 ·

本文研究了在未知转移和对抗性奖励下的线性混合MDP动态遗憾问题，提出了一种新算法，结合占用测度与策略方法，有效应对动态环境，实现了近优性能。

对抗性线性混合MDP的近优动态遗憾

BriefGPT - AI 论文速递 ·