小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
重新审视大型语言模型训练中下游指标的缩放特性

本文探讨了大型语言模型(LLMs)在下游任务性能上的缩放特性,提出了一种框架来根据训练预算预测基准性能。研究发现,在固定的令牌与参数比率下,简单的幂律可以准确描述多个下游任务的准确率缩放行为。该方法优于传统的两阶段程序,并提供了预测准确率的功能形式。研究团队还发布了完整的预训练损失和下游评估结果,以支持可重复性。

重新审视大型语言模型训练中下游指标的缩放特性

Apple Machine Learning Research
Apple Machine Learning Research · 2026-03-26T00:00:00Z
超越单一提取器:重新思考HTML到文本提取在大规模语言模型预训练中的应用

本文探讨了在大规模语言模型预训练中,HTML到文本提取的重要性。研究表明,使用多种提取器可以提高数据利用率,增加71%的标记产出,并对下游任务表现产生显著影响。

超越单一提取器:重新思考HTML到文本提取在大规模语言模型预训练中的应用

Apple Machine Learning Research
Apple Machine Learning Research · 2026-02-24T00:00:00Z

本研究提出了一种校准方法(RepCali),有效解决了微调预训练语言模型时编码器与解码器输入差异的问题,显著提升了下游任务的性能。

RepCali:通过潜在空间中的表示校准实现高效微调的预训练语言模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-13T00:00:00Z

本研究提出了DNAZEN框架,旨在解决传统基因序列表示方法未能充分利用不同粒度信息的问题。通过动态匹配小聚合物和G-grams组合,DNAZEN在多个下游任务中表现优异,展现出显著的应用潜力。

DNAZEN: Enhanced Gene Sequence Representations via Mixed Granularities of Coding Units

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-04T00:00:00Z
探索语音基础模型掩码预训练中的预测目标

语音基础模型HuBERT通过无标签语音数据预训练,采用掩码预测目标学习信息。预测目标的选择影响下游任务表现,细粒度声学特征模型在去噪任务中表现优异,而高层次抽象模型适合内容相关任务。尽管预测目标重要,但相关设计选择尚未深入研究。本文探讨这些设计选择及其对下游任务的影响,提出更具信息性的预测目标,并展示其在多项任务中的有效性。

探索语音基础模型掩码预训练中的预测目标

Apple Machine Learning Research
Apple Machine Learning Research · 2025-03-14T00:00:00Z

本研究探讨了多模态大语言模型(MLLM)在下游任务中的应用性能限制,提出了任务专家特化和开放世界稳定化的挑战,并通过分类和基准测试不同调整方法,为MLLM的优化提供评估分析和调整原则,指出未来研究方向。

The Importance of Maintaining Self in Downstream Tuning of Multimodal Large Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-06T00:00:00Z
基于排名的自监督语音模型自动评估研究

本研究探讨了嵌入排名作为自监督学习训练的通用语音编码器的无监督评估指标。结果显示,嵌入排名与不同下游任务的性能相关,但无法可靠预测特定任务的最佳层。尽管如此,嵌入排名仍是监测自监督学习语音模型训练进展的有价值工具。

基于排名的自监督语音模型自动评估研究

Apple Machine Learning Research
Apple Machine Learning Research · 2025-03-05T00:00:00Z

本研究提出了一种新算法,通过动态重加权训练样本,改善多模态奖励模型(MM-RMs)在处理分布外数据时的泛化能力,从而提升其对多模态理解的能力和下游任务性能。

The Devil Is in the Details: Addressing Unimodal Spurious Correlations for Generalizable Multimodal Reward Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-05T00:00:00Z

本研究提出了一种样本加权方案,以解决微调预训练模型时的“灾难性遗忘”问题,特别是在缺乏原始数据的情况下。该方法通过强调简单样本来提升下游任务的性能,实验证明在语言和视觉任务中效果显著。

A Fine-Tuning Method Using Weighted Simple Samples to Mitigate Forgetting Phenomena

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-05T00:00:00Z

本文提出了一种新的令牌清理方法,旨在改善大型语言模型(LLM)监督微调中的数据质量问题。研究表明,分析模型更新对令牌的影响可以显著提升模型在下游任务中的表现。

令牌清理:针对大型语言模型监督微调的精细数据选择

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-04T00:00:00Z

本研究提出了一种新方法,使变换器能够独立学习蛋白质结构模型。预训练的蛋白质变换器在下游任务中优于定制模型,显示了其作为混合结构-语言模型的潜力。

Transformers for Protein Training that Learn to Attend to Euclidean Distances

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-03T00:00:00Z

本研究提出了一种新颖的多重图嵌入方法,结合层次维度嵌入与超球图神经网络,有效解决高维多重图的几何失真问题,显著提升下游任务的性能。

Geometric Perspectives of High-Dimensional Multiplex Graphs

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-29T00:00:00Z

本研究探讨了视频自回归预训练模型的有效性,提出了Toto模型系列。研究表明,尽管模型归纳偏见较少,预训练的自回归模型在多个下游任务中表现优异,展现出与语言模型相似的扩展能力。

An Empirical Study of Video-based Autoregressive Pre-training

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-09T00:00:00Z

本研究提出了后处理嵌入标准化方法I0T_post和可训练方法I0T_async,以解决CLIP在下游任务中的模态差距问题,显著减少模态差距并保持原始嵌入表示。

I0T:朝向零模态差距的嵌入标准化方法

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-18T00:00:00Z

本研究提出了一种“偏差向量”方法,以减少语言模型中的偏见。通过在有偏数据上训练并减去偏差向量,研究表明该方法在SEAT上提升了0.177点,且未影响下游任务性能。

Bias Vector: Mitigating Bias in Language Models through Task Arithmetic Methods

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-16T00:00:00Z

本研究探讨视觉-语言任务中的挑战,包括视觉描述、问答和常识推理。通过综述预训练模型的应用,提出新范式以应对这些挑战,并展示其在下游任务中的优越表现。尽管取得了一定进展,但仍需关注模型的局限性和潜在风险。

How Vision-Language Tasks Benefit from Large Pre-trained Models: A Review

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-11T00:00:00Z

本研究提出了CONDEN-FI方法,旨在解决多视角无监督特征与实例选择问题,通过重构数据以学习一致且特定的表示,从而提升下游任务的性能。实验结果表明,该方法在真实数据集上的表现优于现有技术。

Multi-View Unsupervised Feature and Instance Co-Selection Based on Consistency and Diversity Learning

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-09T00:00:00Z

本研究探讨了预训练视觉变换器(ViT)对下游任务性能的影响,发现预训练特征并非必要。通过注意力转移,学生模型能够从零开始学习高质量特征,表现出良好的性能,为理解预训练提供了新的视角。

注意力转移在视觉变换器中的惊人有效性

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-14T00:00:00Z

本研究提出AstroM$^3$自监督预训练方法,旨在解决传统天文学模型对单一数据源的依赖问题,提升分类准确性,并展示在多种下游任务中的应用潜力。

AstroM$^3$: 一种自监督的多模态天文学模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-13T00:00:00Z

本研究提出了一种新型模型融合技术,利用多目标贝叶斯优化解决微调预训练语言模型的最佳选择问题,显著提升多个下游任务的性能。

通过贝叶斯优化实现语言模型微调中的模型融合

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-11T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码