小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
最后一遍学习Transformer

本文介绍了Transformer模型的结构与工作原理,包括输入嵌入、位置编码、自注意力机制和多头注意力等模块,强调了缩放点积注意力的重要性及其通过交叉熵损失函数进行训练的方法。

最后一遍学习Transformer

plus studio
plus studio · 2026-01-02T00:00:00Z

本研究探讨了如何优化大型语言模型(LLMs)的训练,以适应测试时的计算策略。结果表明,交叉熵损失函数可能导致模型过于自信,从而影响准确性。通过限制置信度,提出了一种改进的训练损失,显著提升了数学推理能力。

重新思考在测试时计算扩展下的微调:限制置信度改善数学推理

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-11T00:00:00Z

本研究提出了一种增强的提取器-选择器框架,改善了边缘检测中的特征选择机制,并引入了对称加权二元交叉熵损失函数,显著提高了边缘像素的召回率和预测准确性,设立了新基准,具有重要应用潜力。

增强提取器-选择器框架及对称加权二元交叉熵用于边缘检测

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-23T00:00:00Z
第19周 Triton 全交叉熵损失

本文讨论了基于Triton实现的全交叉熵损失,指出其速度明显低于Pytorch,尽管内存使用更少。通过与gpumode Discord群组的交流,发现环境变量是自制Triton内核的主要原因。作者强调积极反馈在保持良好习惯中的重要性,并分享了通过乒乓球和英语学习获得的积极反馈体验。

第19周 Triton 全交叉熵损失

informal
informal · 2025-01-04T16:00:00Z
第18周 Triton交叉熵损失

本周我尝试改进Triton交叉熵损失,但未成功,仍在寻找原因。最近遇到三位风格各异的乒乓球教练。总结:有想法就要尽快实践。

第18周 Triton交叉熵损失

informal
informal · 2024-12-28T16:00:00Z

本文研究了语言模型性能与交叉熵损失的关系,发现模型大小、数据集规模和计算量之间存在幂律关系。提出了神经缩放定律,强调训练数据和模型参数对测试损失的影响。通过分析485个预训练模型,提出了提高预测准确性的最佳实践,为模型选择提供参考。

损失预测:针对所有数据集的缩放法则

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-19T00:00:00Z

本研究探讨了交叉熵损失在自然语言推理中的不足,通过替换近义词生成对比集,评估模型的理解能力。ELECTRA-small模型在常规数据集上的准确率为89.9%,但在对比集上降至72.5%。通过增强训练数据集,模型准确率提升至85.5%。研究强调多样化语言表达的重要性,以推动自然语言推理模型的发展。

基于关系的反事实数据增强与对比学习用于自然语言推理模型的鲁棒性提升

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-28T00:00:00Z

本研究提出了一种新方法,通过结合意图分类和超出范围检测,利用交叉熵损失和自动编码器的嵌入重构损失,提高了虚拟助手系统中拒绝超出范围查询的准确度1-4%,同时保持意图分类性能。

针对意图分类和超出范围检测任务的句子变换器微调的新方法

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-17T00:00:00Z

研究发现,增大 Transformer 模型不一定提升性能,但记忆训练样本能改善泛化能力。通过 Hopfield 网络模拟 Transformer,揭示其记忆过程和性能动态。设计的能量函数为注意力机制提供新解释,并构建全局能量函数捕捉层次结构。实验验证理论,证明在特定条件下,交叉熵损失下界约为1。

演化通用变压器记忆

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-17T00:00:00Z

作者分析了Chrome扩展被拒的原因,发现是未上传API密钥。与谷歌团队沟通后感受到重视。同时,他在Reddit发布项目时遭封号,决定重新注册。学习了“快速交叉熵损失”理论,并上传了LeetCode解题视频以提升英语能力。每周坚持跑步,计划继续深入研究和创作。

每周第4期:LLM加速的初步见解

informal
informal · 2024-09-14T16:00:00Z

本文研究了神经机器翻译中编码器-解码器Transformer模型的扩展特性,提出了交叉熵损失与编解码器大小的关系公式,并给出了最优化分配建议。同时发现训练/测试集组成偏差对模型扩展表现有重要影响,称之为“构造偏差”。研究还调查了交叉熵损失与翻译质量的关系,发现模型大小对推理质量有不同影响。

揭开缩放法则之迷:第一部分

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-03-11T00:00:00Z

本研究发现交叉熵损失的分类方法优于均方误差损失的回归方法,同时提出了序数熵损失方法来提高回归任务性能。实验结果显示增加熵对回归任务有重要性和好处。

停止回归:通过分类训练值函数用于可扩展深度强化学习

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-03-06T00:00:00Z

本文研究了神经机器翻译中编码器-解码器Transformer模型的扩展特性,提出了交叉熵损失与编解码器大小的关系公式,并给出了最优化分配建议。发现训练/测试集组成偏差对模型扩展表现有重要影响,称之为“构造偏差”。研究了交叉熵损失与翻译质量的关系,发现模型大小对推理质量有不同影响。

大型语言模型下游任务性能的缩放规律

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-02-06T00:00:00Z

该论文研究了通过隐式语义增强提高模型泛化性能的方法,并在三个基准测试数据集上实现了最先进的性能水平。该方法使用距离度量学习和交叉熵损失的 logits 作为输入特征。

SimMMDG: 一个简单而有效的多模态领域泛化框架

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-30T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码