小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本文探讨了长上下文模型的工程挑战与解决方案,包括位置编码、注意力计算复杂度、训练策略和推理优化。随着上下文长度增加,模型面临计算复杂度和显存限制。采用RoPE、YaRN等技术扩展位置编码,并结合线性注意力和稀疏注意力优化计算效率。在训练方面,采用短预训练与长继续预训练相结合的策略,推理时利用前缀缓存和KV压缩等技术提高效率。

【大模型基础设施工程】16:长上下文工程

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-22T00:00:00Z
DiT-Air:重新审视文本到图像生成中扩散模型架构设计的效率

本文研究了扩散变换器(DiTs)在文本到图像生成中的效率,分析了架构选择和训练策略。结果表明,标准DiT在性能上与专门模型相当,但参数效率更高。通过层级参数共享策略,DiT-Air和DiT-Air-Lite在保持竞争力的同时,模型尺寸减少了66%。DiT-Air在GenEval和T2I CompBench上表现优异。

DiT-Air:重新审视文本到图像生成中扩散模型架构设计的效率

Apple Machine Learning Research
Apple Machine Learning Research · 2025-12-11T00:00:00Z
CLIP-UP:一种简单高效的稀疏上循环Mixture-of-Experts CLIP训练方案

Mixture-of-Experts (MoE)模型在提升模型能力和控制推理成本方面至关重要。我们提出了一种高效的训练策略CLIP-Upcycling(CLIP-UP),将预训练的密集CLIP模型转化为稀疏MoE架构。实验结果表明,CLIP-UP显著降低了训练复杂性和成本,稀疏CLIP B/16模型在COCO和Flickr30k基准测试中分别超越密集模型7.2%和6.6%。该方法在不同规模上表现良好,为构建高效CLIP模型提供了可行方案。

CLIP-UP:一种简单高效的稀疏上循环Mixture-of-Experts CLIP训练方案

Apple Machine Learning Research
Apple Machine Learning Research · 2025-05-27T00:00:00Z

本研究综述了深度学习在复杂语音谱图分析中的应用,介绍了复杂谱图特征、深度神经网络架构,以及训练策略和损失函数,展示了在相位恢复、语音增强和分离等方面的显著进展。

A Review of Deep Learning Research on Complex Speech Spectrograms

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-13T00:00:00Z

本研究提出了ScaleTrack框架,旨在解决自动化图形用户界面(GUI)代理在训练中面临的数据不足和历史行为回溯问题。通过整合不同来源的GUI样本和新的训练策略,ScaleTrack显著提升了代理的性能。

ScaleTrack: Automated GUI Agents for Scaling and Backtracking

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-01T00:00:00Z

LMM-R1框架通过创新的两阶段训练策略,显著提升小型多模态模型的数学推理能力。第一阶段增强基础推理,第二阶段实现多模态泛化,减少对高质量数据的依赖。实验结果表明,该框架在推理密集型任务中表现优异,展现了多模态模型的应用潜力。

240元打造擅长数学的多模态版R1,基于DeepSeek核心思想,两阶段训练提升推理能力至工业级应用标准

量子位
量子位 · 2025-03-20T08:17:52Z

本研究提出了Soundwave,一种高效的训练策略和新架构,旨在解决语音大型语言模型在语音与文本之间的表示空间差距和序列长度不一致的问题。Soundwave在语音翻译和AIR-Bench任务中表现优异,仅使用五十分之一的训练数据,仍能保持智能对话的表现。

Soundwave: Less is More for Speech-Text Alignment in Large Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-18T00:00:00Z
如何构建和优化推理型大型语言模型?DeepSeek R1的启示

Sebastian Raschka的文章探讨了推理大模型(LLMs)的构建与改进,重点介绍了DeepSeek R1模型。推理模型能够处理复杂任务,具备良好的泛化能力,但成本高且依赖高质量数据。文章总结了四种训练策略:推理时扩展、纯强化学习、监督微调强化学习和蒸馏。案例展示了低成本开发推理模型的潜力,未来推理模型有望更接近人类思维。

如何构建和优化推理型大型语言模型?DeepSeek R1的启示

我爱自然语言处理
我爱自然语言处理 · 2025-02-09T06:05:04Z

本研究介绍了Janus-Pro模型,旨在缩小多模态理解与文本到图像生成之间的能力差距。通过优化训练策略、扩大训练数据和模型规模,Janus-Pro在多模态理解和指令跟随能力上取得显著进展,增强了文本到图像生成的稳定性。

Janus-Pro: Unified Multimodal Understanding and Generation through Data and Model Scaling

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-29T00:00:00Z

本研究提出LAVCap框架,旨在解决自动音频字幕生成中音频与视觉数据融合不足的问题。通过优化训练策略和关注模块,LAVCap在AudioCaps数据集上表现出色,具有重要的应用潜力。

LAVCap Method for Audio-Video Captioning Based on Large Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-16T00:00:00Z

本研究探讨了视觉语言模型在复杂视觉推理中的挑战,特别是文本与视觉数据之间的差距。通过新基准DrivingVQA评估视觉链思维推理能力,发现现有模型在零样本设置下表现不佳,并提出基于相关实体的训练策略,提升推理效果可达7%。

Driving Visual Question Answering: Analyzing Visual Chain-of-Thought Reasoning of Vision Language Models in Real-World Scenarios

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-08T00:00:00Z
揭示局限性:CLIP 模型对真实世界中假相关的依赖

CounterAnimal 数据集评估了 CLIP 模型在真实分布外场景中的鲁棒性。研究发现,CLIP 模型在常见背景下表现良好,但在“困难”背景下准确率显著下降,显示出对环境信息的依赖,提示需改进训练策略以应对假相关性挑战。

揭示局限性:CLIP 模型对真实世界中假相关的依赖

机器之心
机器之心 · 2025-01-07T07:29:00Z

本研究探讨了图神经网络在标签噪声下的鲁棒性,揭示了模型在特定条件下的失败模式,并提出了两种训练策略以增强鲁棒性,提升噪声环境中的表现。

Robustness in Graph Classification: Failure Modes, Causes, and Anti-Noise Loss in Graph Neural Networks

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-11T00:00:00Z

本研究提出了一种创新的深度强化学习训练策略,通过动作映射和可行性模型提高样本效率和收敛速度,显著提升了约束环境下连续动作空间的训练性能。

Action Mapping for Reinforcement Learning in Constrained Continuous Environments

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-05T00:00:00Z
TensorOpera AI 发布 Fox-1:系列小型语言模型包括 Fox-1-1.6B 和 Fox-1-1.6B-Instruct-v0.1

TensorOpera AI 发布了 Fox-1 系列小型语言模型,旨在提供类似大型语言模型的功能,同时降低资源需求。该模型通过创新的训练策略和架构,提升了语言处理能力,并在多项基准测试中表现优异,适合硬件受限的应用。

TensorOpera AI 发布 Fox-1:系列小型语言模型包括 Fox-1-1.6B 和 Fox-1-1.6B-Instruct-v0.1

实时互动网
实时互动网 · 2024-11-13T06:45:11Z

本研究提出了一种有效的训练策略,通过将大型语言模型的排名知识转移至小型模型BERT,显著提升了商业搜索引擎的性能。

将大型语言模型蒸馏为BERT以用于网络搜索排名的最佳实践

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-07T00:00:00Z

本研究提出了一种统一的训练策略,解决了听觉、视觉和视听语音识别的独立性问题。通过贪婪伪标签方法,利用未标记样本提升模型性能,达到了最新技术水平。

统一语音识别:一种用于听觉、视觉和视听输入的单一模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-04T00:00:00Z

本研究提出了一种新的渐进式LoRA训练策略CopRA,旨在解决标准LoRA训练中模型快速收敛于局部最优的问题。实验结果表明,CopRA在模型合并和剪枝任务中表现优异。

CopRA:渐进式LoRA训练策略

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-30T00:00:00Z

本研究提出了一种新颖的训练策略,通过将自编码器数量减少到一组连续层,显著提高了大语言模型的训练效率。在Pythia 160M模型上,训练速度提升可达6倍,同时重建质量和下游任务性能保持不变。

通过层组高效训练大语言模型的稀疏自编码器

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-28T00:00:00Z

本研究分析了高清视频生成的挑战,特别是文本到视频、图像到视频和视频到视频的生成。通过研究SORA等模型,文章探讨了模型架构的演变、新的数据扩展和训练策略,发现这些模型在高分辨率生成、自然运动和视觉语言对齐方面取得了重要进展,对内容创作和世界建模有潜在影响。

视频生成的曙光:基于SORA模型的初步探索

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-07T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码