小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
超越Logits:语言建模中的三元民主崛起

现代语言模型在标记预测中存在缺陷,庞大的softmax层导致架构臃肿且易出错。引入三元编码(tribits)可以提升模型的表达能力和容错性,克服传统token化的局限,增强模型的鲁棒性和可解释性,标志着后softmax时代的到来。

超越Logits:语言建模中的三元民主崛起

DEV Community
DEV Community · 2025-04-25T18:36:10Z

本研究提出了一种粗到细的标记预测方法,解决自回归图像生成中的量化误差问题。实验结果显示,Inception分数平均提升59分,且采样速度更快。

Enhancing Autoregressive Image Generation through Coarse-to-Fine Label Prediction

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-20T00:00:00Z

本研究提出了一个理论框架,探讨大型语言模型在下一个标记预测任务中的长度泛化问题,发现每个预测标记依赖于固定数量的前置标记,并提出了“预测位置耦合”方法以提升模型的泛化能力。

The Role of Sparsity in Length Generalization of Transformers

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-24T00:00:00Z

本研究提出了Whisper-GPT,一种生成大型语言模型,旨在提升音频上下文处理能力。该模型结合声谱图和离散音频标记,增强了下一个标记的预测效果。

Whisper-GPT:一种混合表示的音频大型语言模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-16T00:00:00Z
今天的人工智能:上下文学习者的混合方法

本文介绍了一种混合方法,通过上下文学习训练专家,结合示例子集和可训练的加权函数,预测专家的下一个标记,适用于黑箱大型语言模型。

今天的人工智能:上下文学习者的混合方法

DEV Community
DEV Community · 2024-11-06T22:09:47Z

通过27小时行走数据训练全尺寸仿人机器人,在旧金山自由行走。研究将仿人控制视为标记预测问题,通过传感器运动轨迹的自回归预测训练模型。结果表明,模型能在现实世界中泛化,并执行未见过的指令。研究为学习真实世界控制任务提供了前景广阔的道路。

大模型+机器人:人形运动作为下一个Token预测

极道
极道 · 2024-03-01T22:19:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码