小红花·文摘

重新审视大型语言模型训练中下游指标的缩放特性

Apple Machine Learning Research ·

超越单一提取器：重新思考HTML到文本提取在大规模语言模型预训练中的应用

Apple Machine Learning Research ·

本研究提出了一种校准方法（RepCali），有效解决了微调预训练语言模型时编码器与解码器输入差异的问题，显著提升了下游任务的性能。

RepCali：通过潜在空间中的表示校准实现高效微调的预训练语言模型

BriefGPT - AI 论文速递 ·

本研究提出了DNAZEN框架，旨在解决传统基因序列表示方法未能充分利用不同粒度信息的问题。通过动态匹配小聚合物和G-grams组合，DNAZEN在多个下游任务中表现优异，展现出显著的应用潜力。

DNAZEN: Enhanced Gene Sequence Representations via Mixed Granularities of Coding Units

BriefGPT - AI 论文速递 ·

探索语音基础模型掩码预训练中的预测目标

Apple Machine Learning Research ·

本研究探讨了多模态大语言模型（MLLM）在下游任务中的应用性能限制，提出了任务专家特化和开放世界稳定化的挑战，并通过分类和基准测试不同调整方法，为MLLM的优化提供评估分析和调整原则，指出未来研究方向。

The Importance of Maintaining Self in Downstream Tuning of Multimodal Large Language Models

BriefGPT - AI 论文速递 ·

基于排名的自监督语音模型自动评估研究

Apple Machine Learning Research ·

本研究提出了一种新算法，通过动态重加权训练样本，改善多模态奖励模型（MM-RMs）在处理分布外数据时的泛化能力，从而提升其对多模态理解的能力和下游任务性能。

The Devil Is in the Details: Addressing Unimodal Spurious Correlations for Generalizable Multimodal Reward Models

BriefGPT - AI 论文速递 ·

本研究提出了一种样本加权方案，以解决微调预训练模型时的“灾难性遗忘”问题，特别是在缺乏原始数据的情况下。该方法通过强调简单样本来提升下游任务的性能，实验证明在语言和视觉任务中效果显著。

A Fine-Tuning Method Using Weighted Simple Samples to Mitigate Forgetting Phenomena

BriefGPT - AI 论文速递 ·

本文提出了一种新的令牌清理方法，旨在改善大型语言模型（LLM）监督微调中的数据质量问题。研究表明，分析模型更新对令牌的影响可以显著提升模型在下游任务中的表现。

令牌清理：针对大型语言模型监督微调的精细数据选择

BriefGPT - AI 论文速递 ·

本研究提出了一种新方法，使变换器能够独立学习蛋白质结构模型。预训练的蛋白质变换器在下游任务中优于定制模型，显示了其作为混合结构-语言模型的潜力。

Transformers for Protein Training that Learn to Attend to Euclidean Distances

BriefGPT - AI 论文速递 ·

本研究提出了一种新颖的多重图嵌入方法，结合层次维度嵌入与超球图神经网络，有效解决高维多重图的几何失真问题，显著提升下游任务的性能。

Geometric Perspectives of High-Dimensional Multiplex Graphs

BriefGPT - AI 论文速递 ·

本研究探讨了视频自回归预训练模型的有效性，提出了Toto模型系列。研究表明，尽管模型归纳偏见较少，预训练的自回归模型在多个下游任务中表现优异，展现出与语言模型相似的扩展能力。

An Empirical Study of Video-based Autoregressive Pre-training

BriefGPT - AI 论文速递 ·

本研究提出了后处理嵌入标准化方法I0T_post和可训练方法I0T_async，以解决CLIP在下游任务中的模态差距问题，显著减少模态差距并保持原始嵌入表示。

I0T：朝向零模态差距的嵌入标准化方法

BriefGPT - AI 论文速递 ·

本研究提出了一种“偏差向量”方法，以减少语言模型中的偏见。通过在有偏数据上训练并减去偏差向量，研究表明该方法在SEAT上提升了0.177点，且未影响下游任务性能。

Bias Vector: Mitigating Bias in Language Models through Task Arithmetic Methods

BriefGPT - AI 论文速递 ·

本研究探讨视觉-语言任务中的挑战，包括视觉描述、问答和常识推理。通过综述预训练模型的应用，提出新范式以应对这些挑战，并展示其在下游任务中的优越表现。尽管取得了一定进展，但仍需关注模型的局限性和潜在风险。

How Vision-Language Tasks Benefit from Large Pre-trained Models: A Review

BriefGPT - AI 论文速递 ·

本研究提出了CONDEN-FI方法，旨在解决多视角无监督特征与实例选择问题，通过重构数据以学习一致且特定的表示，从而提升下游任务的性能。实验结果表明，该方法在真实数据集上的表现优于现有技术。

Multi-View Unsupervised Feature and Instance Co-Selection Based on Consistency and Diversity Learning

BriefGPT - AI 论文速递 ·

本研究探讨了预训练视觉变换器（ViT）对下游任务性能的影响，发现预训练特征并非必要。通过注意力转移，学生模型能够从零开始学习高质量特征，表现出良好的性能，为理解预训练提供了新的视角。

注意力转移在视觉变换器中的惊人有效性

BriefGPT - AI 论文速递 ·

本研究提出AstroM$^3$自监督预训练方法，旨在解决传统天文学模型对单一数据源的依赖问题，提升分类准确性，并展示在多种下游任务中的应用潜力。

AstroM$^3$: 一种自监督的多模态天文学模型

BriefGPT - AI 论文速递 ·

本研究提出了一种新型模型融合技术，利用多目标贝叶斯优化解决微调预训练语言模型的最佳选择问题，显著提升多个下游任务的性能。

通过贝叶斯优化实现语言模型微调中的模型融合

BriefGPT - AI 论文速递 ·