标签

 语言模型 

相关的文章:

这是一篇关于语言模型的综述文章,介绍了如何通过混合人工专家与LLM辅助来实现更轻松的编码。文章涵盖了LLM与Scikit-Learn的集成、小型LLM作为可解释的文本分类器的逻辑回归、评估语言模型的心理深度、LLM推理的压力测试以及新的AI架构如何提升大型语言模型的规划能力。

新发现的“P3”恶意软件可在微调后感染语言模型

原文英文,约800词,阅读约需3分钟。发表于:

This is a Plain English Papers summary of a research paper called Newly Discovered 'P3' Malware Can Infect Language Models Despite Fine-Tuning. If you like these kinds of analysis, you should join...

研究发现一种名为“持续预训练投毒”(P3)的新攻击方式,可以让大型语言模型在微调后仍然产生偏见和不良输出。通过在预训练数据中注入偏见,使其在初始阶段被锁定,后续训练难以消除。P3攻击在多种模型上有效,显示了模型的脆弱性。未来需开发更强的训练技术和数据管理来应对。

新发现的“P3”恶意软件可在微调后感染语言模型
相关推荐 去reddit讨论

数学神经外科:仅通过前向传播 isolating 语言模型的数学推理能力

原文中文,约400字,阅读约需1分钟。发表于:

本研究解决了大语言模型(LLM)中数学推理能力编码的不足,提出了数学神经外科(MathNeuro)的方法,通过仅使用前向传播来孤立数学特定参数。研究发现,通过剔除影响通用语言任务的重要参数,可以在不影响LLM的语言能力的情况下提高其数学性能,提升幅度达4-17%。

Mathador-LM是一个评估大型语言模型数学推理的新基准,结合规则解释与问题求解,动态生成实例以防止测试集泄露。研究表明,现代模型在Mathador-LM上的表现显著低于平均5年级学生。

相关推荐 去reddit讨论

语言模型非短视生成用于推理和规划

原文中文,约300字,阅读约需1分钟。发表于:

本研究解决了大型语言模型在推理和规划中存在的短视问题,提出了一种新方法“预测解码”,利用模型预测控制来提高规划准确度。实验结果显示,该方法在数学、编程和智能体等多项任务中显著改善了性能,并展现了更高的计算效率。

大语言模型在规划和推理方面存在误解,自回归LLM无法独立进行规划或自我验证。我们提出了LLM-模块化框架,将LLM与外部验证器结合,以提升其规划和推理能力。

相关推荐 去reddit讨论

Meta AI 发布 Meta Spirit LM:混合文本和语音的开源多模态语言模型

原文中文,约1900字,阅读约需5分钟。发表于:

Meta AI 最近发布了 Meta Spirit LM,这是一种创新的开源多模态语言模型,能够自由混合文本和语音。Meta Spirit LM 通过在单词级别集成文本和语音来解决现有 TTS 系统的局限性,使模型能够更无缝地跨模态。

开发高级文本转语音系统的挑战在于缺乏表现力。Meta AI 推出的Meta Spirit LM通过在单词级别整合文本和语音,解决了这一问题。Spirit LM有两个版本:Base和Expressive,后者结合音调和风格标记,生成更自然的语音。该模型能在语音和文本间自由转换,增强多模态AI体验,并在对话代理和教育技术等领域有应用潜力。

Meta AI 发布 Meta Spirit LM:混合文本和语音的开源多模态语言模型
相关推荐 去reddit讨论

大型音频语言模型真的能“听”吗?通过多任务评估与逐步音频推理应对幻觉现象

原文中文,约200字,阅读约需1分钟。发表于:

本研究针对大型音频语言模型在理解音频和语言信息过程中面临的幻觉问题进行了探讨。提出了三个评估任务,系统地检验模型在识别声音事件、确定事件顺序和识别声音来源方面的能力,结果表明模型在这些基本任务上存在局限性。通过引入多轮链式思维的方法,提高了模型在上述任务中的表现。

研究探讨大型音频语言模型在理解音频和语言时的幻觉问题。通过三个任务评估模型在声音事件识别、事件顺序确定和声音来源识别方面的能力,发现其局限性。引入多轮链式思维方法后,模型表现有所改善。

相关推荐 去reddit讨论

提升视觉语言模型的链式思维推理

原文中文,约400字,阅读约需1分钟。发表于:

本文解决了视觉语言模型(VLMs)在链式思维(CoT)推理中缺乏足够详细的训练数据的问题。通过从GPT-4o模型中提取推理依据丰富训练数据,并结合强化学习优化推理质量,显著提升了VLM在基准数据集上的性能和对直接答案预测的泛化能力。这项研究强调了在训练中融合详细推理依据的重要性,以及利用强化学习增强VLM推理能力的策略。

Chain-of-Thought提示可以增强大型语言模型的推理能力,但现有方法效果不佳。为此,提出了CoTGenius框架来自动生成高质量提示,并创建了CoT数据集,对Llama 2-Chat模型进行微调,形成了ChainLM模型。为解决推理误差,提出了步骤级辩论方法,让多个辩论者讨论推理步骤。实验显示,ChainLM在复杂推理问题上表现出色,并分析了数据类别对性能的影响。数据集和代码已发布。

相关推荐 去reddit讨论

语言模型对论证角色敏感性的心理语言学评估

原文中文,约300字,阅读约需1分钟。发表于:

该研究解决了大型语言模型在论证角色处理中的敏感性问题,通过复制心理语言学研究进行系统评估。研究发现,尽管语言模型能区分动词在合理和不合理上下文中的应用,但它们并未捕捉到人类在实时动词预测中展现出的选择性模式,显示出语言模型的动词合理性检测机制与人类的实时句子处理机制不同。

研究评估大型语言模型在处理论证角色时的敏感性。结果显示,模型能区分动词在合理和不合理上下文中的应用,但未能捕捉人类在实时动词预测中的选择性,表明模型的动词合理性检测机制与人类不同。

相关推荐 去reddit讨论

通过模块化训练和合并实现语言模型的可扩展数据消融近似

原文中文,约300字,阅读约需1分钟。发表于:

本研究针对大语言模型在训练数据组成对其下游性能的影响这一问题,提出了一种高效的方法,通过对训练语料的子集进行模型训练并重新评估组合,实现数据消融的近似。研究发现,单个模型在候选数据集上的困惑度与在不同数据分割上训练的模型参数平均值的困惑度得分密切相关,此方法能显著提升训练效率,并为模型性能的改进提供新途径。

本研究提出了一种高效方法,通过对训练语料的子集进行训练和评估,实现数据消融的近似。发现单个模型在候选数据集上的困惑度与不同数据分割上训练的模型参数平均困惑度密切相关。此方法提升了训练效率,并为模型性能改进提供新途径。

相关推荐 去reddit讨论

通过潜在空间引导减少视觉语言模型中的幻觉

原文中文,约400字,阅读约需1分钟。发表于:

本研究解决了大型视觉语言模型(LVLMs)中幻觉现象的问题,该现象源于视觉输入与文本输出之间的不对齐。提出了一种新技术——视觉与文本干预(VTI),该技术在推理过程中引导潜在空间表示,从而提高视觉特征的稳定性,实验结果表明VTI有效减少幻觉现象,并在多个指标上超越基线方法,突显了视觉特征稳定性的重要性。

大规模视觉-语言模型在生成文本时常出现幻觉问题。为解决此问题,本文提出了指令对比解码(ICD)方法,通过对比标准和干扰指令的分布,减少幻觉现象。实验表明,ICD有效降低了物体和属性级别的幻觉,并提升了模型的识别能力。

相关推荐 去reddit讨论

语言模型输出概率的校准性研究

原文中文,约300字,阅读约需1分钟。发表于:

本研究着眼于语言模型(LM)在不同文本上下文中输出概率的校准性问题,特别针对其在信息的确实性与概率性表达上的表现进行评估。研究发现当前最优秀的语言模型在校准性上表现不佳,并存在系统性偏见,例如对选项顺序的敏感性和特定类别的偏好,这些问题使得模型行为难以理解,影响了用户的使用体验。

研究发现,语言模型在不同文本上下文中输出概率的校准性较差,存在对选项顺序敏感和特定类别偏好的系统性偏见,影响用户体验和模型理解。

相关推荐 去reddit讨论