informal ·

学习 2022.4

💡 原文中文，约2300字，阅读约需6分钟。

📝

内容提要

文章探讨了深度学习的多个主题，包括dropout与cos的结合、Radam与adamW的区别、Xavier参数初始化的有效性，以及DEBERTA模型的改进。重点关注训练与预测阶段的一致性、学习率动态调整、参数初始化的几何视角，以及在NLP任务中对抗样本的处理。

🎯

在孪生网络中，dropout层用于cos计算相似度时，训练和预测阶段的输出值不一致。
Radam通过动态调整学习率解决了adam算法的局部最优解问题，而adamW则结合了L2正则化。
Xavier参数初始化确保神经网络输入层和输出层的方差一致，从而使梯度更加稳定。
从几何角度看，Xavier初始化策略保证了向量模长不变，证明了其有效性。
DEBERTA模型通过分开计算上下文关系和相对位置关系来增强自注意力机制，并在embedding层进行Layer Normalization后加入干扰以提升模型效果。

❓

dropout在孪生网络中用于计算cos相似度，但在训练和预测阶段的输出值不一致，预测阶段的输出值会更大。

Radam通过动态调整学习率解决局部最优解问题，而adamW则结合了L2正则化。

Xavier参数初始化确保神经网络输入层和输出层的方差一致，从而使梯度更加稳定。

DEBERTA模型通过分开计算上下文关系和相对位置关系来增强自注意力机制，并在embedding层进行Layer Normalization后加入干扰。

从几何角度看，Xavier初始化保证了向量模长不变，证明了其有效性。

在NLP任务中，通过微调embedding层而不是输入样本来处理对抗样本干扰。

🏷️

人工服务
多数时候，我并不喜欢去为了那点小恩小惠去折腾一些事情。主要感觉付出的精力与得到的东西相比，那些东西完全没什么性 […]
极海发布新一代G32F0平台首款电机控制MCU
极海发布了新一代G32F0平台的电机控制MCU——G32F031。该MCU主频为64MHz，支持1.8V~5.5V供电，集成64KB Flash和8KB ...
蒙纳字库正式发布可变字体Gotham Variable
蒙纳字库于5月12日发布了可变字体Gotham Variable，支持在单个文件内无级调节字重与字宽，继承经典Gotham设计，提升视觉传播效果，支持多种...
Kubernetes作为GPU控制平面：HAMi v2.9与下一代AI基础设施
最近，我关注国内GPU调度和Kubernetes在AI资源管理方面的进展。随着HAMi v2.9的发布，我想分享一些关于AI基础设施控制平面演变的观察，特...
Cognex推出协作式AI视觉开发环境OneVision
Cognex推出了OneVision，这是一款协作式AI视觉开发环境，旨在简化制造中的AI检测。该平台支持实时执行和全生命周期管理，兼容最新的Cognex...
会畅科技携OlloNi参加2026人民网数据智能伙伴大会
会畅科技推出OlloNi陪伴机器人，开创赛博宠物新类别。OlloNi在2026年CES展出，采用三块屏幕展现情感，提供人机互动体验。首发市场选择北美，因该...