小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
面向未来的思考:变压器的潜在前瞻训练

本文介绍了一种名为“潜在前瞻”的训练策略,旨在提升自回归语言模型的文本生成能力。该方法通过多步前瞻提高预测准确性,实验结果显示其在迷宫求解、数独和ProsQA等任务中显著优于传统模型。

面向未来的思考:变压器的潜在前瞻训练

Apple Machine Learning Research
Apple Machine Learning Research · 2026-03-25T00:00:00Z
你的语言模型预知未来:揭示其多标记预测潜力

本文提出了一种新框架,利用自回归语言模型提升生成速度和并行性。关键创新包括掩码输入形式、门控LoRA结构、轻量可学习采样模块、辅助训练损失和投机生成策略。该方法在预训练模型上进行监督微调,生成速度提高近5倍,且质量无损。

你的语言模型预知未来:揭示其多标记预测潜力

Apple Machine Learning Research
Apple Machine Learning Research · 2025-08-08T00:00:00Z

本研究提出LZ惩罚,旨在解决自回归语言模型中的重复问题。该方法基于LZ77无损压缩算法,通过预测-压缩对偶性,降低重复率而不损失模型能力。

LZ Penalty: An Information-Theoretic Repetition Penalty for Autoregressive Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-28T00:00:00Z

本研究提出了一种名为Q-过滤器的KV缓存压缩方法,旨在解决自回归语言模型中的内存瓶颈问题。Q-过滤器通过高效的近似查询和键向量,在长上下文中表现出色,显著降低文本生成的不确定性。

Q-Filter: Efficient KV Cache Compression Using QK Geometry

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-04T00:00:00Z

本研究提出了JanusFlow框架,结合自回归语言模型与修正流,解决图像理解与生成的整合问题。实验结果表明,JanusFlow在多模态处理方面优于现有模型。

JanusFlow: Harmonizing Autoregressive and Flow Correction for Unified Multimodal Understanding and Generation

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-12T00:00:00Z
对 OpenAI o1 的逆向工程[译]

OpenAI发布了o1推理系统,通过大规模部署解决长推理链问题。o1与自回归语言模型不同,为用户提供在线搜索。OpenAI发布了相关信息,包括训练方法、o1预览模型和o1 mini模型的博客文章,以及安全性测试的系统卡片和使用文档。o1的性能将随着更多强化学习和推理时间的投入而提升。

对 OpenAI o1 的逆向工程[译]

宝玉的分享
宝玉的分享 · 2024-09-17T20:40:00Z

现代自回归语言模型研究了上下文学习中的校准问题。实验表明,模型大小和数据集微调对性能与校准之间的权衡有显著影响。提出的线性校准技术(LinC)在少量样本下显著提升模型预测性能,平均改善率达21%。此外,研究了标签偏移现象,并提出生成校准方法,优化了文本分类任务的表现。

基于标记的决策准则在上下文学习中存在亚最优问题

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-24T00:00:00Z

美国Meta公司开源了Llama3大模型,包括8B和70B参数尺度。Llama 3模型在8B和70B参数尺度上表现出色,改进了错误拒绝率、一致性和模型响应的多样性。Llama 3还改进了推理、代码生成和指令跟踪等功能。Llama 3是一个自回归语言模型,使用优化的transformer架构。安装Ollama软件和下载模型后,可以在本地部署Llama3-8B。Llama3整体推理和逻辑能力不错,但对中文不太友好。70B模型比8B模型更强,回答更加口语化。

本地部署Llama3-8B/70B 并进行逻辑推理测试

dotNET跨平台
dotNET跨平台 · 2024-04-20T23:31:00Z

该研究提出了一种自条件嵌入扩散机制,可用于条件和非条件文本生成。该模型能够学习灵活和可扩展的扩散模型,生成的样本与标准自回归语言模型相当,且推断时间更高效。该研究为文本扩散模型的规模扩大和性能提高铺平了道路。

信息扩散:对非自回归文本生成的信息熵感知扩散过程

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-18T00:00:00Z

该文介绍了一种在自回归语言模型中种植水印的方法,可以在不改变文本分布的情况下对扰动具有鲁棒性。该方法在三个语言模型上进行了实验验证,即使在通过随机编辑破坏了40-50%的标记之后,仍然可以可靠地检测到带水印的文本。

大型语言模型的语义不变鲁棒水印

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-10T00:00:00Z

FREE框架解决自回归语言模型推理延迟问题,包括浅层-深层模块和同步并行解码,自适应阈值估计器利用Beta混合模型确定合适的置信阈值。实验证明,该框架在生成任务中表现优越。

具备快速且稳健的同时并行解码的自回归语言模型提前退出框架

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-09T00:00:00Z

本文介绍了一种在自回归语言模型中种植水印的方法,该方法对扰动具有鲁棒性,并且不改变文本分布。实验证明该方法对各种释义攻击具有统计功率和鲁棒性。

WavMark: 音频生成的水印技术

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-08-24T00:00:00Z
通过 SageMaker JumpStart 部署 Llama 2 快速构建专属 LLM 应用

现在可以在Amazon SageMaker JumpStart中使用Llama 2基础模型。使用JumpStart快速部署Llama 2模型,并结合Gradio工具创建LLM应用。Llama 2是自回归语言模型,适用于商业和研究用途。SageMaker JumpStart提供了6个版本的Llama-2模型。使用JumpStart或Notebook在SageMaker中部署推理节点。部署完成后,可以使用Gradio与模型交互。参考提供的链接获取完整代码。通过Gradio链接测试聊天页面。使用SageMaker JumpStart和Notebook部署Llama 2模型,结合Gradio构建生成式AI应用。无需担心基础设施搭建和运维,拥有良好的开源项目体验。

通过 SageMaker JumpStart 部署 Llama 2 快速构建专属 LLM 应用

亚马逊AWS官方博客
亚马逊AWS官方博客 · 2023-08-11T03:04:27Z
高效训练语言模型进行文本填充

本文探讨了自回归语言模型如何通过简单的数据转换进行文本填充,研究表明这种填充方法不会损害模型的生成能力。建议未来的自回归语言模型默认采用填充训练,并提供了关键超参数的最佳设置和实践。此外,我们发布了最佳填充模型和基准,以支持未来研究。

高效训练语言模型进行文本填充

OpenAI
OpenAI · 2022-07-28T07:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码