modded-nanogpt 是一个优化 NanoGPT 模型训练速度的项目,利用 8 块 NVIDIA H100 GPU 将训练时间从 45 分钟缩短至 3 分钟,数据量减少至 0.73B tokens。该项目采用现代架构和多种加速技术,并提供 Docker 支持以简化环境配置。
本研究分析了传统格林函数方法在大规模稀疏图中的不稳定性,提出了一种新方法,等效于完全连接图的格林函数,并引入加速技术以提升效率,实验结果验证了其有效性和稳定性。
VideoSys是一个简单高效的视频生成系统,旨在让视频生成简便、迅速且成本低廉。它是一个开源项目,提供了用户友好的高性能基础设施。系统支持PAB和DSP等加速技术,PAB实现实时输出、无损质量、高帧率和加速,DSP适用于多维transformer架构,可实现训练和推理加速。
该文介绍了一种基于 token dropping 方法的预训练加速技术,可以将 BERT 的预训练成本减少 25%。该方法通过丢弃不重要的 token,使模型更专注于重要的 token,然后让最后一层重新生成完整的序列,计算代价几乎为零。
本文介绍了一个紧凑的人脸特征点检测模型,采用加速技术,能够在不同自然环境下取得高精度和超快速度。该模型采用旋转信息估计进行几何规范化特征定位,并采用一种新误差函数来平衡数据不均衡问题。在多个面部特征检测数据集上表现出卓越性能。
完成下面两步后,将自动完成登录并继续当前操作。