小红花·文摘 - 小红花技术领袖俱乐部

面向未来的思考：变压器的潜在前瞻训练

面向未来的思考：变压器的潜在前瞻训练

Apple Machine Learning Research ·

你的语言模型预知未来：揭示其多标记预测潜力

你的语言模型预知未来：揭示其多标记预测潜力

Apple Machine Learning Research ·

本研究提出LZ惩罚，旨在解决自回归语言模型中的重复问题。该方法基于LZ77无损压缩算法，通过预测-压缩对偶性，降低重复率而不损失模型能力。

LZ Penalty: An Information-Theoretic Repetition Penalty for Autoregressive Language Models

BriefGPT - AI 论文速递 ·

本研究提出了一种名为Q-过滤器的KV缓存压缩方法，旨在解决自回归语言模型中的内存瓶颈问题。Q-过滤器通过高效的近似查询和键向量，在长上下文中表现出色，显著降低文本生成的不确定性。

Q-Filter: Efficient KV Cache Compression Using QK Geometry

BriefGPT - AI 论文速递 ·

本研究提出了JanusFlow框架，结合自回归语言模型与修正流，解决图像理解与生成的整合问题。实验结果表明，JanusFlow在多模态处理方面优于现有模型。

JanusFlow: Harmonizing Autoregressive and Flow Correction for Unified Multimodal Understanding and Generation

BriefGPT - AI 论文速递 ·

本文提出了一种在自回归语言模型中植入水印的方法，确保文本分布不变且对扰动具有鲁棒性。通过随机生成水印密钥，可以创建带水印的文本，知晓密钥者可检测水印。实验表明，OPT-1.3B和LLaMA-7B模型在文本随机编辑后仍能有效检测水印，而Alpaca-7B模型的检测较为困难。

可证明鲁棒的开源语言模型水印

BriefGPT - AI 论文速递 ·

对 OpenAI o1 的逆向工程[译]

对 OpenAI o1 的逆向工程[译]

宝玉的分享 ·

美国Meta公司开源了Llama3大模型，包括8B和70B参数尺度。Llama 3模型在8B和70B参数尺度上表现出色，改进了错误拒绝率、一致性和模型响应的多样性。Llama 3还改进了推理、代码生成和指令跟踪等功能。Llama 3是一个自回归语言模型，使用优化的transformer架构。安装Ollama软件和下载模型后，可以在本地部署Llama3-8B。Llama3整体推理和逻辑能力不错，但对中文不太友好。70B模型比8B模型更强，回答更加口语化。

本地部署Llama3-8B/70B 并进行逻辑推理测试

dotNET跨平台 ·

本研究提出了自条件嵌入扩散机制，用于条件和非条件文本生成。该机制在令牌嵌入上运行，学习灵活和可扩展的扩散模型。研究表明，该模型生成的样本与自回归语言模型相当，且在推断时间上更高效。该研究为扩大文本扩散模型的规模，提高性能铺平了道路。

利用语言模型嵌入进行蛋白质序列生成的扩散

BriefGPT - AI 论文速递 ·

该研究提出了一种自条件嵌入扩散机制，可用于条件和非条件文本生成。该模型能够学习灵活和可扩展的扩散模型，生成的样本与标准自回归语言模型相当，且推断时间更高效。该研究为文本扩散模型的规模扩大和性能提高铺平了道路。

信息扩散：对非自回归文本生成的信息熵感知扩散过程

BriefGPT - AI 论文速递 ·

该文介绍了一种在自回归语言模型中种植水印的方法，可以在不改变文本分布的情况下对扰动具有鲁棒性。该方法在三个语言模型上进行了实验验证，即使在通过随机编辑破坏了40-50%的标记之后，仍然可以可靠地检测到带水印的文本。

大型语言模型的语义不变鲁棒水印

BriefGPT - AI 论文速递 ·

FREE框架解决自回归语言模型推理延迟问题，包括浅层-深层模块和同步并行解码，自适应阈值估计器利用Beta混合模型确定合适的置信阈值。实验证明，该框架在生成任务中表现优越。

具备快速且稳健的同时并行解码的自回归语言模型提前退出框架

BriefGPT - AI 论文速递 ·

本文介绍了一种在自回归语言模型中种植水印的方法，该方法对扰动具有鲁棒性，并且不改变文本分布。实验证明该方法对各种释义攻击具有统计功率和鲁棒性。

WavMark: 音频生成的水印技术

BriefGPT - AI 论文速递 ·

通过 SageMaker JumpStart 部署 Llama 2 快速构建专属 LLM 应用

通过 SageMaker JumpStart 部署 Llama 2 快速构建专属 LLM 应用

亚马逊AWS官方博客 ·

高效训练语言模型进行文本填充

高效训练语言模型进行文本填充

OpenAI ·