小红花·文摘

使用优化标准变更未知参数

DEV Community ·

本研究提出BiSSL，一种通过双层优化增强自监督学习的训练框架，改善预训练与微调阶段的对齐，提高下游任务的参数初始化。实验显示，BiSSL在多个图像分类数据集上提升了分类精度。

BiSSL：用于自监督预训练和微调的双层优化

BriefGPT - AI 论文速递 ·

本文探讨了单隐藏层神经网络在回归问题中的应用，分析了激活函数的性质及其对学习效果的影响。研究提出了新的参数初始化方法和优化算法，验证了神经网络在不同条件下的学习能力，并探讨了深度学习中的理论与实践差距。实验结果验证了收敛条件的有效性，并提出了改进算法的参数搜索方法。

强$\varepsilon$污染模型中的非线性学习的迭代阈值方法

BriefGPT - AI 论文速递 ·

MultiLoRA是一种新的多任务适应方法，通过减少主导性和改变参数初始化来实现更平衡的单元子空间。实验证明，MultiLoRA在多个基准和模型规模上优于单个LoRA和微调方法，且只需额外2.5％的参数。进一步研究表明，MultiLoRA的权重更新矩阵减少了对顶层奇异向量的依赖性，使单元变换更加均衡。

MultiLoRA: 提升多任务学习效果的 LoRA 民主化

BriefGPT - AI 论文速递 ·

该研究探讨了在只有大型单语语料库的情况下学习翻译的方法，提出了神经模型和基于短语的模型，并通过参数初始化、语言模型去噪和反向迭代自动生成并行数据来提高翻译性能。在基准测试中，这些模型在英法和德英翻译中分别获得28.1和25.2的BLEU分数，比现有方法高出11个分数。在低资源语言如英乌和英罗马尼亚翻译中也取得了良好结果。

神经机器翻译中使用短语机制的有效方法

BriefGPT - AI 论文速递 ·

BN可以稳定网络中每层输入数据的分布，提高学习率，减少梯度爆炸和梯度消失，防止参数变化放大，减少对参数初始化方法的依赖，提高网络收敛速度，减少过拟合，提高网络泛化能力。

详解神经网络基础部件BN层

华为云官方博客 ·