小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
面向未来的思考:变压器的潜在前瞻训练

本文介绍了一种名为“潜在前瞻”的训练策略,旨在提升自回归语言模型的文本生成能力。该方法通过多步前瞻提高预测准确性,实验结果显示其在迷宫求解、数独和ProsQA等任务中显著优于传统模型。

面向未来的思考:变压器的潜在前瞻训练

Apple Machine Learning Research
Apple Machine Learning Research · 2026-03-25T00:00:00Z
你的语言模型预知未来:揭示其多标记预测潜力

本文提出了一种新框架,利用自回归语言模型提升生成速度和并行性。关键创新包括掩码输入形式、门控LoRA结构、轻量可学习采样模块、辅助训练损失和投机生成策略。该方法在预训练模型上进行监督微调,生成速度提高近5倍,且质量无损。

你的语言模型预知未来:揭示其多标记预测潜力

Apple Machine Learning Research
Apple Machine Learning Research · 2025-08-08T00:00:00Z

本研究提出LZ惩罚,旨在解决自回归语言模型中的重复问题。该方法基于LZ77无损压缩算法,通过预测-压缩对偶性,降低重复率而不损失模型能力。

LZ Penalty: An Information-Theoretic Repetition Penalty for Autoregressive Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-28T00:00:00Z

本研究提出了一种名为Q-过滤器的KV缓存压缩方法,旨在解决自回归语言模型中的内存瓶颈问题。Q-过滤器通过高效的近似查询和键向量,在长上下文中表现出色,显著降低文本生成的不确定性。

Q-Filter: Efficient KV Cache Compression Using QK Geometry

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-04T00:00:00Z

本研究提出了JanusFlow框架,结合自回归语言模型与修正流,解决图像理解与生成的整合问题。实验结果表明,JanusFlow在多模态处理方面优于现有模型。

JanusFlow: Harmonizing Autoregressive and Flow Correction for Unified Multimodal Understanding and Generation

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-12T00:00:00Z

本文提出了一种在自回归语言模型中植入水印的方法,确保文本分布不变且对扰动具有鲁棒性。通过随机生成水印密钥,可以创建带水印的文本,知晓密钥者可检测水印。实验表明,OPT-1.3B和LLaMA-7B模型在文本随机编辑后仍能有效检测水印,而Alpaca-7B模型的检测较为困难。

可证明鲁棒的开源语言模型水印

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-24T00:00:00Z
对 OpenAI o1 的逆向工程[译]

OpenAI发布了o1推理系统,通过大规模部署解决长推理链问题。o1与自回归语言模型不同,为用户提供在线搜索。OpenAI发布了相关信息,包括训练方法、o1预览模型和o1 mini模型的博客文章,以及安全性测试的系统卡片和使用文档。o1的性能将随着更多强化学习和推理时间的投入而提升。

对 OpenAI o1 的逆向工程[译]

宝玉的分享
宝玉的分享 · 2024-09-17T20:40:00Z

美国Meta公司开源了Llama3大模型,包括8B和70B参数尺度。Llama 3模型在8B和70B参数尺度上表现出色,改进了错误拒绝率、一致性和模型响应的多样性。Llama 3还改进了推理、代码生成和指令跟踪等功能。Llama 3是一个自回归语言模型,使用优化的transformer架构。安装Ollama软件和下载模型后,可以在本地部署Llama3-8B。Llama3整体推理和逻辑能力不错,但对中文不太友好。70B模型比8B模型更强,回答更加口语化。

本地部署Llama3-8B/70B 并进行逻辑推理测试

dotNET跨平台
dotNET跨平台 · 2024-04-20T23:31:00Z

本研究提出了自条件嵌入扩散机制,用于条件和非条件文本生成。该机制在令牌嵌入上运行,学习灵活和可扩展的扩散模型。研究表明,该模型生成的样本与自回归语言模型相当,且在推断时间上更高效。该研究为扩大文本扩散模型的规模,提高性能铺平了道路。

利用语言模型嵌入进行蛋白质序列生成的扩散

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-03-06T00:00:00Z

该研究提出了一种自条件嵌入扩散机制,可用于条件和非条件文本生成。该模型能够学习灵活和可扩展的扩散模型,生成的样本与标准自回归语言模型相当,且推断时间更高效。该研究为文本扩散模型的规模扩大和性能提高铺平了道路。

信息扩散:对非自回归文本生成的信息熵感知扩散过程

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-18T00:00:00Z

该文介绍了一种在自回归语言模型中种植水印的方法,可以在不改变文本分布的情况下对扰动具有鲁棒性。该方法在三个语言模型上进行了实验验证,即使在通过随机编辑破坏了40-50%的标记之后,仍然可以可靠地检测到带水印的文本。

大型语言模型的语义不变鲁棒水印

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-10T00:00:00Z

FREE框架解决自回归语言模型推理延迟问题,包括浅层-深层模块和同步并行解码,自适应阈值估计器利用Beta混合模型确定合适的置信阈值。实验证明,该框架在生成任务中表现优越。

具备快速且稳健的同时并行解码的自回归语言模型提前退出框架

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-09T00:00:00Z

本文介绍了一种在自回归语言模型中种植水印的方法,该方法对扰动具有鲁棒性,并且不改变文本分布。实验证明该方法对各种释义攻击具有统计功率和鲁棒性。

WavMark: 音频生成的水印技术

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-08-24T00:00:00Z
通过 SageMaker JumpStart 部署 Llama 2 快速构建专属 LLM 应用

现在可以在Amazon SageMaker JumpStart中使用Llama 2基础模型。使用JumpStart快速部署Llama 2模型,并结合Gradio工具创建LLM应用。Llama 2是自回归语言模型,适用于商业和研究用途。SageMaker JumpStart提供了6个版本的Llama-2模型。使用JumpStart或Notebook在SageMaker中部署推理节点。部署完成后,可以使用Gradio与模型交互。参考提供的链接获取完整代码。通过Gradio链接测试聊天页面。使用SageMaker JumpStart和Notebook部署Llama 2模型,结合Gradio构建生成式AI应用。无需担心基础设施搭建和运维,拥有良好的开源项目体验。

通过 SageMaker JumpStart 部署 Llama 2 快速构建专属 LLM 应用

亚马逊AWS官方博客
亚马逊AWS官方博客 · 2023-08-11T03:04:27Z
高效训练语言模型进行文本填充

本文探讨了自回归语言模型如何通过简单的数据转换进行文本填充,研究表明这种填充方法不会损害模型的生成能力。建议未来的自回归语言模型默认采用填充训练,并提供了关键超参数的最佳设置和实践。此外,我们发布了最佳填充模型和基准,以支持未来研究。

高效训练语言模型进行文本填充

OpenAI
OpenAI · 2022-07-28T07:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码