本文提出了一种语言效能刺激(VES)方法,通过鼓励性、挑衅性和批判性语言提示,提升大型语言模型在零样本任务中的表现。实验结果表明,这三种刺激有效提高了模型的任务表现,且不同模型对刺激的反应存在差异,为后续研究提供了新视角。
Meta 发布的 MobileLLM 是一组高效的小型语言模型,旨在优化移动设备的部署,减少对云资源的依赖。通过深而薄的架构和多项创新技术,MobileLLM 提供了竞争力的性能,降低了延迟和能耗。在零样本任务中表现优于同类模型,展现了在聊天和 API 调用等应用中的潜力。
7年前,谷歌提出Transformer,随后推出Universal Transformer(UT),通过层共享提升逻辑推理和语言建模性能。近期,研究者提出了Mixture-of-Experts Universal Transformers(MoEUT),结合混合专家架构,提高计算效率和泛化能力。MoEUT在多个数据集上表现优异,特别是在零样本任务中超越标准Transformer。研究显示,MoEUT能动态调整专家选择,适应不同任务需求。
我们提出了一种自监督框架,通过脑电信号学习图像表征。实验证明该方法在脑电图像数据集上取得了最先进的结果,并在零样本任务中达到了较高准确率。这些结果对神经解码和脑-计算机界面的应用有价值。
研究人员通过三值化和离群值友好特征知识蒸馏提出了可学习的双向三值化方法,该方法在大型语言模型上表现优异,超越了其他低位量化方法。在C4数据集上,该方法降低了困惑度,并在零样本任务的平均准确率上提高了8.2%。
我们提出了一个简单而有效的策略,通过利用大型预训练语言模型生成伪新样本并选择最具代表性的样本作为类别锚点,将多类分类任务转换为二元分类任务,并使用查询 - 锚点对的相似性进行预测,从而在少样本和零样本任务中充分利用有限的监督信号,实现模型从已知类别的限制中解放,能够在没有使用任何已知类别样本的情况下准确预测未知类别。
本文评估了多模态大型语言模型的指导能力,并引入了I4基准测试。通过重新注入模块和无标注跨注意力引导的训练策略,实现了在复杂的视觉语言指令中有效处理的新型多模态大型语言模型Cheetah。该模型在I4中的零样本任务上表现出色,并与当前MME基准的最新指导优化模型相比具有竞争力的性能。
完成下面两步后,将自动完成登录并继续当前操作。