小红花·文摘

Apple Machine Learning Research ·

DEV Community ·

本研究探讨了语言模型中参数数量与计算量之间的关系，重点分析了稀疏混合专家模型的稀疏性对性能的影响。研究表明，优化稀疏性能够提升训练效率和模型性能，为设计更高效的架构提供了新视角。

BriefGPT - AI 论文速递 ·

本文介绍了如何在编译期检查SQL查询参数数量，利用Rust的宏定义tokens!实现。通过format!宏生成SQL文本，并将参数转换为Token，以确保参数数量匹配。

Rust.cc ·

本研究探讨了过参数化对离群检测的影响，提出了一种新的离群风险度量。结果显示，当参数数量等于样本数量时，离群风险会出现无限峰值，且过参数化不一定提升离群检测效果。

BriefGPT - AI 论文速递 ·

该论文介绍了一种名为Convolutional KANs的新型卷积神经网络方法，通过将非线性激活函数集成到卷积中，准确性与传统方法相当，但参数数量减少一半，为神经网络架构优化提供了新途径。

BriefGPT - AI 论文速递 ·

该论文介绍了一种名为Convolutional KANs的新型卷积神经网络方法，通过将非线性激活函数集成到卷积中，实验证明其在准确性方面与标准卷积神经网络相当，但参数数量仅为一半，为神经网络架构优化提供了新的途径。

BriefGPT - AI 论文速递 ·

研究发现带有LoRA的细调预训练语言模型存在遗忘问题，遗忘量与参数数量和更新步数呈移位幂律增长。无法通过停止或调整参数数量来避免遗忘。这为减轻遗忘问题的细调方案开辟了安全关键方向。

BriefGPT - AI 论文速递 ·

该论文提出了两个简单的改进措施：一是将重构作为辅助目标包含在词汇中以提高表示质量；二是演示了增加独立通道数量可显著提高嵌入质量，同时减少参数数量，甚至将非嵌入参数总数减少到七的极限。

BriefGPT - AI 论文速递 ·

研究发现带有LoRA的细调预训练语言模型存在遗忘问题，遗忘量与参数数量和更新步数呈移位幂律增长。无法通过停止或调整参数数量来避免遗忘。这为减轻遗忘问题的细调方案提供了重要方向。

BriefGPT - AI 论文速递 ·

本研究提出了一种名为X-Net的新型神经网络，通过交替反向传播机制选择适当的激活函数，增强网络对特定任务的表示能力。X-Net的参数数量仅为基准的3％，在拟合任务上可以实现平均R^2=0.985。X-Net在多个学科的数据上取得了优异的结果。

BriefGPT - AI 论文速递 ·

该论文提出了Swift Parameter-free Attention Network (SPAN)用于单幅图像超分辨率任务，实现了高效的超分辨率模型，平衡了参数数量、推断速度和图像质量，达到了质量和速度的平衡。

BriefGPT - AI 论文速递 ·

该文介绍了一种名为自监督跨视图训练（SCT）的框架，用于缩小大型和小型预训练语言模型（PLM）之间的性能差距。SCT在7个语义文本相似性（STS）基准测试中，与5个基准和最先进的竞争对手相比，在21个案例中的18个中胜过竞争对手，对于参数少于100M的PLMs表现出色。

BriefGPT - AI 论文速递 ·

本文介绍了一种适用于频域的深度模型，采用手工制作和数据驱动技术，以降低计算复杂性和参数数量，实现计算成本和准确性的平衡。

BriefGPT - AI 论文速递 ·

OpenAI ·