小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
最后一遍学习Transformer

本文介绍了Transformer模型的结构与工作原理,包括输入嵌入、位置编码、自注意力机制和多头注意力等模块,强调了缩放点积注意力的重要性及其通过交叉熵损失函数进行训练的方法。

最后一遍学习Transformer

plus studio
plus studio · 2026-01-02T00:00:00Z

本研究探讨了如何优化大型语言模型(LLMs)的训练,以适应测试时的计算策略。结果表明,交叉熵损失函数可能导致模型过于自信,从而影响准确性。通过限制置信度,提出了一种改进的训练损失,显著提升了数学推理能力。

重新思考在测试时计算扩展下的微调:限制置信度改善数学推理

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-11T00:00:00Z

本研究提出了一种增强的提取器-选择器框架,改善了边缘检测中的特征选择机制,并引入了对称加权二元交叉熵损失函数,显著提高了边缘像素的召回率和预测准确性,设立了新基准,具有重要应用潜力。

增强提取器-选择器框架及对称加权二元交叉熵用于边缘检测

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-23T00:00:00Z
第19周 Triton 全交叉熵损失

本文讨论了基于Triton实现的全交叉熵损失,指出其速度明显低于Pytorch,尽管内存使用更少。通过与gpumode Discord群组的交流,发现环境变量是自制Triton内核的主要原因。作者强调积极反馈在保持良好习惯中的重要性,并分享了通过乒乓球和英语学习获得的积极反馈体验。

第19周 Triton 全交叉熵损失

informal
informal · 2025-01-04T16:00:00Z
第18周 Triton交叉熵损失

本周我尝试改进Triton交叉熵损失,但未成功,仍在寻找原因。最近遇到三位风格各异的乒乓球教练。总结:有想法就要尽快实践。

第18周 Triton交叉熵损失

informal
informal · 2024-12-28T16:00:00Z

本文研究了语言模型性能与交叉熵损失的关系,发现模型大小、数据集规模和计算量之间存在幂律关系。提出了神经缩放定律,强调训练数据和模型参数对测试损失的影响。通过分析485个预训练模型,提出了提高预测准确性的最佳实践,为模型选择提供参考。

损失预测:针对所有数据集的缩放法则

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-19T00:00:00Z

本文研究了语言模型性能与交叉熵损失的关系,发现损失与模型和数据集大小呈幂律关系。提出了时间缩放定律,探讨了预训练数据对下游性能的影响,并确认了扩展定律在大型模型中的有效性,为模型优化和预训练流程提供了指导。

《缩放规律估计指南》

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-15T00:00:00Z

本文探讨了神经网络中的神经崩溃现象,分析了交叉熵损失函数在特征模型中的全局优化景观。研究表明,神经崩溃普遍存在于深度学习中,影响优化和泛化能力。提出无约束层剥模型,证明其在全局最小化时表现出神经崩溃现象,并探讨了批归一化和权重衰减的影响。

带权重衰减训练的宽神经网络显著展现神经崩溃的现象

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-07T00:00:00Z

本文研究了语言模型性能与交叉熵损失的关系,发现模型规模、数据集大小和计算量呈幂律关系。研究表明,混合使用真实数据与合成数据训练可以缓解模型崩溃现象,并提出自适应正则化策略以减轻影响。模型崩溃指在使用合成数据训练新模型时性能下降,因此需谨慎选择训练数据。

强模型崩溃

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-07T00:00:00Z

作者分析了Chrome扩展被拒的原因,发现是未上传API密钥。与谷歌团队沟通后感受到重视。同时,他在Reddit发布项目时遭封号,决定重新注册。学习了“快速交叉熵损失”理论,并上传了LeetCode解题视频以提升英语能力。每周坚持跑步,计划继续深入研究和创作。

每周第4期:LLM加速的初步见解

informal
informal · 2024-09-14T16:00:00Z

本文研究了语言模型的交叉熵损失与模型规模、数据集大小及计算量之间的关系,提出了优化编码器和解码器容量分配的建议,并探讨了训练数据选择对模型性能的影响。研究表明,模型扩展显著影响翻译质量,并提出了时间缩放定律,揭示了预训练语言模型的学习特性。

学习率退火的缩放法则

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-20T00:00:00Z

本文分析了神经网络中的神经崩溃现象,发现交叉熵损失下特征向量在同类中收敛为相同的平均向量,并确定了少数类崩溃的临界阈值。研究表明,数据不平衡的影响随着样本增大而减小,且神经崩溃现象在不同损失函数下均可观察到,实验结果验证了理论分析的有效性。

求解自由特征模型的几何分析 with d=K

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-15T00:00:00Z

本文研究了语言模型性能与交叉熵损失之间的关系,发现损失与模型大小、数据集大小和计算量呈幂律关系。通过训练大型模型和适量数据可以实现最优效率。此外,研究表明迁移学习能够改善未标注数据的性能,并提出了基于参数、数据和计算的可预测缩放规律。

时间的重要性:适用于任意预算的规模定律

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-27T00:00:00Z

本文研究了语言模型性能与交叉熵损失之间的关系,发现损失与模型大小、数据集大小和计算量呈幂律关系。研究表明,训练大型模型并合理使用数据可以提高计算效率。通过对104个模型的测试,提出了新的缩放定律,强调计算预算对模型性能的影响,并建议在推理需求大的情况下,训练较小且更长的模型以优化性能。

解决语言模型计算最优扩展的差异

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-27T00:00:00Z

该研究提出了一种新的视觉-语言跟踪方法MMTrack,简化了模型复杂性并采用交叉熵损失优化。通过引入异构架构和模态混合器,显著提升了追踪效果。实验结果表明,该方法在多个基准测试中优于现有技术,具有良好的应用前景。

DTLLM-VLT: 基于 LLM 的视觉语言跟踪多样化文本生成

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-05-20T00:00:00Z

本文研究了神经网络中的比例定律,发现其在模型性能预测、开发加速和优化选择方面的重要性。研究表明,交叉熵损失与模型规模、数据集大小及计算量之间存在幂律关系,并提出了优化模型容量分配的建议,同时探讨了训练集偏差对模型性能的影响。

揭开缩放法则之迷:第一部分

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-03-11T00:00:00Z

本文探讨了强化学习算法在非结构化观测和尺度递增中的应用,提出了多种新方法以提高学习效果和性能,包括交叉熵损失和延迟评论者策略梯度算法。研究表明,增加熵和自适应标准化目标值能显著改善回归任务和观察泛化性能。

停止回归:通过分类训练值函数用于可扩展深度强化学习

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-03-06T00:00:00Z

本文研究了神经机器翻译中编码器-解码器Transformer模型的扩展特性,提出了交叉熵损失与编解码器大小的关系公式,并给出了最优化分配建议。发现训练/测试集组成偏差对模型扩展表现有重要影响,称之为“构造偏差”。研究了交叉熵损失与翻译质量的关系,发现模型大小对推理质量有不同影响。

大型语言模型下游任务性能的缩放规律

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-02-06T00:00:00Z

该论文研究了通过隐式语义增强提高模型泛化性能的方法,并在三个基准测试数据集上实现了最先进的性能水平。该方法使用距离度量学习和交叉熵损失的 logits 作为输入特征。

SimMMDG: 一个简单而有效的多模态领域泛化框架

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-30T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码