标签

 语言模型 

相关的文章:

探索大型语言模型在不同领域的应用,以及优化方法。包括稀疏视觉语言模型修复、复杂约束指令遵循能力提升等。

解道jdon.com

解道jdon.com -

微软小语言模型Phi-3-mini测试体验

微软新的小语言模型 Phi-3-mini,它的性能让人震惊。尽管只有 30 亿个参数,但该模型功能强大,可以在各种任务中提供一流的结果。Phi-3-mini 的效率改变了游戏规则,使我们能够在本地运行大型语言模型而不牺牲性能。其多功能性凸显,可以轻松处理从创意内容生成到复杂问题解决的所有事务。Phi-3-mini 由 Microsoft 开发并在 MIT 许可下开源,对于任何想要探索大型语言模型世界的人来说,它是一个可靠且易于访问的选择。相关: 链接到带有 4K 代币上下文窗口的 Phi-3-mini 链接到带有 128K 代币上下文窗口的 Phi-3-mini HuggingChat 演示

微软新的小语言模型Phi-3-mini性能强大,只有30亿个参数,但能在各种任务中提供一流的结果。Phi-3-mini由Microsoft开发并在MIT许可下开源,对于想要探索大型语言模型的人来说是一个可靠且易于访问的选择。测试者表示Phi-3-mini在常识、地理、代码生成、推理和常识方面表现良好。它的大小适合在小树莓派上独立运行,也适合在智能手机上使用。

相关推荐 去reddit讨论
解道jdon.com

解道jdon.com -

苹果OpenELM:开源小语言模型

OpenELM:具有开源训练和推理框架的高效语言模型系列OpenELM 使用分层缩放策略来有效地分配变压器模型每一层内的参数,从而提高准确性。我们使用CoreNet库预训练 OpenELM 模型。我们发布了具有 270M、450M、1.1B 和 3B 参数的预训练和指令调整模型。我们的预训练数据集包含RefinedWeb、去重PILE、RedPajama 的子集和Dolma v1.6 的子集,总计约1.8 万亿个token。使用这些数据集之前,请检查许可协议和条款。各型号的详细信息请参见下表: OpenELM-270M OpenELM-450M OpenELM-1_1B OpenELM-3B

苹果发布了开源微语言模型OpenELM,具有开源训练和推理框架,采用分层缩放策略提高准确性。发布了多个参数模型,包括270M、450M、1.1B和3B。与微软的Phi-3-mini相比,OpenELM 3B在竞赛中表现出更好的性能。

相关推荐 去reddit讨论
BriefGPT - AI 论文速递

BriefGPT - AI 论文速递 -

大规模语言模型的持续学习:一项综合调研

对大型语言模型在持续学习、预训练、微调以及评估协议方面进行综述.

该研究提出了一种通过从错误中学习的方法来改进大型语言模型的知识缺陷问题。通过采集相关知识并进行连续更新和补充,以及构建补充训练集来增强语言模型的理解能力。实验证明该方法有效,最佳情况下可提高17.00%的准确性。

相关推荐 去reddit讨论
BriefGPT - AI 论文速递

BriefGPT - AI 论文速递 -

通过上下文学习提高大型语言模型对常识生成的多样性

生成常识推理(GCR)需要模型利用常识知识进行推理,同时生成连贯的句子。本论文提出了一种简单的方法来增加大型语言模型(LLMs)生成的多样性,同时保持生成质量。实验结果表明,该方法在生成质量和多样性之间取得了理想的平衡,并且所生成的句子可用于改善现有常识生成器的多样性。

DIV-SE和IDIV-SE方法通过改变输入提示的多样性,在不改变解码过程的前提下,提高了LLM推理的准确性。

相关推荐 去reddit讨论
BriefGPT - AI 论文速递

BriefGPT - AI 论文速递 -

大规模语言模型(LLMs)中的语义歧义分析

本研究旨在分析和讨论 ChatGPT 和 Gemini 等模型中的语言歧义,关注巴西葡萄牙语中的语义、句法和词汇歧义。通过创建一个包含 120 个歧义和非歧义句子的语料库,进行分类、解释和消除歧义。结果经过定性分析和基于回答准确性的定量评估,证明了即使是像 ChatGPT 和 Gemini 这样先进的模型在回答中也存在错误和不足,解释通常是不一致的。此外,准确性达到了 49.58%的峰值,表明有必要进行有监督学习的描述性研究。

使用LLM的自动情感分析在学术研究和工业应用中越来越普遍。研究发现不同模型和评估的人类语言之间存在性能偏见和不一致。研究提供了自动情感分析评估的标准化方法,并呼吁改进算法和基础数据。

相关推荐 去reddit讨论
BriefGPT - AI 论文速递

BriefGPT - AI 论文速递 -

探索语言模型中的内部数理能力:ALBERT 的研究案例

该研究提出了一种方法来研究 Transformer 语言模型内部如何表示数字数据,并使用该方法分析了 ALBERT 语言模型系列。通过主成分分析(PCA),我们提取这些模型用于表示数字和序数的令牌的学习嵌入,PCA 结果显示不同大小、训练和初始化分开的 ALBERT 模型一致地学习使用变化最大的轴来表示各种数值概念的近似排序,数字及其文本对应部分分别在不同的簇中表示,但在 2D 空间中沿着相同的方向增长。我们的发现表明,纯粹用于建模文本的语言模型可以理解基本的数学概念,为与定量推理交叉的 NLP 应用开辟了新的发展路径。

该研究使用PCA方法分析了ALBERT语言模型系列,发现不同大小、训练和初始化的模型一致地使用变化最大的轴来表示数值概念的排序。这表明语言模型可以理解基本的数学概念,为与定量推理交叉的NLP应用开辟了新的发展路径。

相关推荐 去reddit讨论
BriefGPT - AI 论文速递

BriefGPT - AI 论文速递 -

SEED-Bench-2-Plus:基于多模态大型语言模型的文本丰富视觉理解基准测试

我们介绍了 SEED-Bench-2-Plus,这是一个专门设计用于评估 MLLMs 的文本丰富视觉理解的基准,通过涵盖现实世界中的三个广泛类别(图表、地图和网络),它们有效地模拟了复杂多样的文本丰富环境,并强调了当前 MLLMs 在文本丰富视觉理解方面的限制。

最近的研究关注生成式多模态大型语言模型(MLLMs),通过引入SEED-Bench基准测试解决了MLLMs生成理解评估问题。SEED-Bench包含19K个准确的多项选择问题,涵盖了12个评估维度,包括图像和视频模态的理解。评估结果揭示了现有MLLMs的局限性,为未来的研究提供见解。

相关推荐 去reddit讨论
BriefGPT - AI 论文速递

BriefGPT - AI 论文速递 -

评估大型语言模型对时间序列特征理解的综合分类和基准

提出了一个评估大型语言模型(LLM)在时间序列理解方面能力的框架,包括单变量和多变量形式;通过研究时间序列的特征以及设计和合成数据集来评估 LLMs 在时间序列理解方面的能力,并揭示了 LLMs 对数据格式、查询数据的位置和时间序列长度等因素的敏感性。

通过系统性文献综述,全面考察了大规模语言模型(LLMs)在预测和异常检测中的应用。讨论了LLMs的潜力、挑战和解决方案,并概述了关键趋势。强调了LLMs对预测和异常检测的影响,以及创新、道德考虑和实际解决方案的需求。

相关推荐 去reddit讨论
程序师

程序师 -

【外评】LLM大型语言模型与哈利波特问题

想象一下,你提供一个 LLM《哈利-波特》里的一章,让它数一数 "巫师 "这个词被提到了多少次。GPT4、Claude 3 Opus、Gemini Ultra 和 Mixtral,但在这项任务中都失败了。

长上下文的语言模型(LLM)在处理长文档时存在问题,被称为“哈利-波特问题”。传统的RAG、微调和代理方法都无法解决这个问题。解决方法是为每个长文档建立自己的视角和本体论,并进行摄取和检索管道的建立。此外,将文档视为百科全书处理,并建立目录和引文列表也有帮助。对于个人文档,需要选择文件类别、提出信息和关系,并进行实验。

相关推荐 去reddit讨论
BriefGPT - AI 论文速递

BriefGPT - AI 论文速递 -

研究大型语言模型在现实知识冲突下的行为

通过真实冲突文档更新错误的派生参数知识来研究知识冲突,结果显示模型的正确派生参数知识对其阅读能力和行为产生负面影响。

本文介绍了一种利用检索增强生成(RAG)改进大规模语言模型(LLMs)的端到端系统设计,用于处理私人知识库相关的领域特定和时间敏感查询。实验结果表明该系统在生成准确的查询答案方面有效,并揭示了微调LLM时使用小规模和偏斜数据集的限制。该研究突出了RAG系统在知识密集型任务中增强LLMs性能的潜力。

相关推荐 去reddit讨论

热榜 Top10

Dify.AI
Dify.AI
观测云
观测云
eolink
eolink
LigaAI
LigaAI

推荐或自荐