小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本文探讨了长上下文模型的工程挑战与解决方案,包括位置编码、注意力计算复杂度、训练策略和推理优化。随着上下文长度增加,模型面临计算复杂度和显存限制。采用RoPE、YaRN等技术扩展位置编码,并结合线性注意力和稀疏注意力优化计算效率。在训练方面,采用短预训练与长继续预训练相结合的策略,推理时利用前缀缓存和KV压缩等技术提高效率。

【大模型基础设施工程】16:长上下文工程

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-22T00:00:00Z
DiT-Air:重新审视文本到图像生成中扩散模型架构设计的效率

本文研究了扩散变换器(DiTs)在文本到图像生成中的效率,分析了架构选择和训练策略。结果表明,标准DiT在性能上与专门模型相当,但参数效率更高。通过层级参数共享策略,DiT-Air和DiT-Air-Lite在保持竞争力的同时,模型尺寸减少了66%。DiT-Air在GenEval和T2I CompBench上表现优异。

DiT-Air:重新审视文本到图像生成中扩散模型架构设计的效率

Apple Machine Learning Research
Apple Machine Learning Research · 2025-12-11T00:00:00Z
CLIP-UP:一种简单高效的稀疏上循环Mixture-of-Experts CLIP训练方案

Mixture-of-Experts (MoE)模型在提升模型能力和控制推理成本方面至关重要。我们提出了一种高效的训练策略CLIP-Upcycling(CLIP-UP),将预训练的密集CLIP模型转化为稀疏MoE架构。实验结果表明,CLIP-UP显著降低了训练复杂性和成本,稀疏CLIP B/16模型在COCO和Flickr30k基准测试中分别超越密集模型7.2%和6.6%。该方法在不同规模上表现良好,为构建高效CLIP模型提供了可行方案。

CLIP-UP:一种简单高效的稀疏上循环Mixture-of-Experts CLIP训练方案

Apple Machine Learning Research
Apple Machine Learning Research · 2025-05-27T00:00:00Z

本研究综述了深度学习在复杂语音谱图分析中的应用,介绍了复杂谱图特征、深度神经网络架构,以及训练策略和损失函数,展示了在相位恢复、语音增强和分离等方面的显著进展。

A Review of Deep Learning Research on Complex Speech Spectrograms

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-13T00:00:00Z

本研究提出了ScaleTrack框架,旨在解决自动化图形用户界面(GUI)代理在训练中面临的数据不足和历史行为回溯问题。通过整合不同来源的GUI样本和新的训练策略,ScaleTrack显著提升了代理的性能。

ScaleTrack: Automated GUI Agents for Scaling and Backtracking

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-01T00:00:00Z

LMM-R1框架通过创新的两阶段训练策略,显著提升小型多模态模型的数学推理能力。第一阶段增强基础推理,第二阶段实现多模态泛化,减少对高质量数据的依赖。实验结果表明,该框架在推理密集型任务中表现优异,展现了多模态模型的应用潜力。

240元打造擅长数学的多模态版R1,基于DeepSeek核心思想,两阶段训练提升推理能力至工业级应用标准

量子位
量子位 · 2025-03-20T08:17:52Z

本研究提出了Soundwave,一种高效的训练策略和新架构,旨在解决语音大型语言模型在语音与文本之间的表示空间差距和序列长度不一致的问题。Soundwave在语音翻译和AIR-Bench任务中表现优异,仅使用五十分之一的训练数据,仍能保持智能对话的表现。

Soundwave: Less is More for Speech-Text Alignment in Large Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-18T00:00:00Z
如何构建和优化推理型大型语言模型?DeepSeek R1的启示

Sebastian Raschka的文章探讨了推理大模型(LLMs)的构建与改进,重点介绍了DeepSeek R1模型。推理模型能够处理复杂任务,具备良好的泛化能力,但成本高且依赖高质量数据。文章总结了四种训练策略:推理时扩展、纯强化学习、监督微调强化学习和蒸馏。案例展示了低成本开发推理模型的潜力,未来推理模型有望更接近人类思维。

如何构建和优化推理型大型语言模型?DeepSeek R1的启示

我爱自然语言处理
我爱自然语言处理 · 2025-02-09T06:05:04Z

本研究介绍了Janus-Pro模型,旨在缩小多模态理解与文本到图像生成之间的能力差距。通过优化训练策略、扩大训练数据和模型规模,Janus-Pro在多模态理解和指令跟随能力上取得显著进展,增强了文本到图像生成的稳定性。

Janus-Pro: Unified Multimodal Understanding and Generation through Data and Model Scaling

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-29T00:00:00Z

本研究提出LAVCap框架,旨在解决自动音频字幕生成中音频与视觉数据融合不足的问题。通过优化训练策略和关注模块,LAVCap在AudioCaps数据集上表现出色,具有重要的应用潜力。

LAVCap Method for Audio-Video Captioning Based on Large Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-16T00:00:00Z

本研究探讨了视觉语言模型在复杂视觉推理中的挑战,特别是文本与视觉数据之间的差距。通过新基准DrivingVQA评估视觉链思维推理能力,发现现有模型在零样本设置下表现不佳,并提出基于相关实体的训练策略,提升推理效果可达7%。

Driving Visual Question Answering: Analyzing Visual Chain-of-Thought Reasoning of Vision Language Models in Real-World Scenarios

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-08T00:00:00Z
揭示局限性:CLIP 模型对真实世界中假相关的依赖

CounterAnimal 数据集评估了 CLIP 模型在真实分布外场景中的鲁棒性。研究发现,CLIP 模型在常见背景下表现良好,但在“困难”背景下准确率显著下降,显示出对环境信息的依赖,提示需改进训练策略以应对假相关性挑战。

揭示局限性:CLIP 模型对真实世界中假相关的依赖

机器之心
机器之心 · 2025-01-07T07:29:00Z

本研究探讨了图神经网络在标签噪声下的鲁棒性,揭示了模型在特定条件下的失败模式,并提出了两种训练策略以增强鲁棒性,提升噪声环境中的表现。

Robustness in Graph Classification: Failure Modes, Causes, and Anti-Noise Loss in Graph Neural Networks

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-11T00:00:00Z

本研究提出了一种创新的深度强化学习训练策略,通过动作映射和可行性模型提高样本效率和收敛速度,显著提升了约束环境下连续动作空间的训练性能。

Action Mapping for Reinforcement Learning in Constrained Continuous Environments

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-05T00:00:00Z
TensorOpera AI 发布 Fox-1:系列小型语言模型包括 Fox-1-1.6B 和 Fox-1-1.6B-Instruct-v0.1

TensorOpera AI 发布了 Fox-1 系列小型语言模型,旨在提供类似大型语言模型的功能,同时降低资源需求。该模型通过创新的训练策略和架构,提升了语言处理能力,并在多项基准测试中表现优异,适合硬件受限的应用。

TensorOpera AI 发布 Fox-1:系列小型语言模型包括 Fox-1-1.6B 和 Fox-1-1.6B-Instruct-v0.1

实时互动网
实时互动网 · 2024-11-13T06:45:11Z

本研究提出了一种新的渐进式LoRA训练策略CopRA,旨在解决标准LoRA训练中模型快速收敛于局部最优的问题。实验结果表明,CopRA在模型合并和剪枝任务中表现优异。

CopRA:渐进式LoRA训练策略

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-30T00:00:00Z

本研究探讨大型语言模型中的极端标记现象,分析注意力头在不同输入中的活跃与休眠机制,并提出替代训练策略以缓解此现象。研究表明,预训练模型中存在类似机制,影响推理和可解释性。

Active-Dormant Attention Heads: Mechanistically Demystifying Extreme-Token Phenomena in Large Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-17T00:00:00Z

本文探讨了多模态大型语言模型(MLLMs)的发展,提出通过引入视觉编码器和改进训练策略来提升视觉感知能力。研究表明,数据质量和任务多样性对模型性能至关重要,强调了在视觉-语言任务中优化训练效率的重要性。

单一内部视觉模型:推动内生视觉预训练的单一多模态大型语言模型的边界

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-10T00:00:00Z

本文探讨了大型语言模型在上下文学习中的应用,分析了训练策略和演示设计的挑战。研究表明,黄金标签对模型性能影响显著,而不平衡标签影响较小。提出了隐式上下文学习的新范式,展示了其在少样本学习中的有效性,并揭示了记忆化训练数据对上下文学习表现的影响。

重新审视大型语言模型中的上下文学习推理电路

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-06T00:00:00Z

本文探讨了现代大型语言模型(LLMs)在处理长序列时的局限性,并提出了多种扩展上下文长度的方法,如LM-Infinite和LongAlign框架。研究表明,线性标度是扩展上下文的最佳方式,新模型Giraffe在长上下文任务中表现优异。通过压缩提示信息和改进训练策略,模型在长序列处理上显著提升,降低了计算成本和延迟。

E2LLM:用于长上下文理解和推理的编码器加长大型语言模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-10T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码