标签

 llm 

相关的文章:

BriefGPT - AI 论文速递 -

CritiqueLLM: 扩展 LLM-as-Critic 以有效且可解释地评估大型语言模型生成

自然语言处理社区开始让大规模语言模型(如 GPT-4)扮演批评家以评估生成文本质量,大部分仅在特定数据集上训练特定规模的批判生成模型,我们认为缺乏对于基于语言模型评估模型的关键因素(如可扩展性特性)的全面调查,因此目前是否有潜力在实际场景中取代 GPT-4 的评估仍然没有结论;在本文中,我们提出了一种名为 CritiqueLLM 的新型批判生成模型,采用基于对话的提示方法用于高质量的参考 / 无参考评估数据,实验结果表明,我们的模型在评估性能上可以与 GPT-4 相媲美,尤其在系统级相关性上,甚至在具有挑战性的无参考环境中,在 8 个任务中有 3 个胜过 GPT-4;我们进行详细分析以展示我们模型在生成批评质量方面的可扩展性特性,同时证明我们生成的批评可以作为可扩展反馈,直接提高 LLM 的生成质量。

AI生成摘要 自然语言处理社区开始使用大规模语言模型评估生成文本质量。本文提出了一种名为CritiqueLLM的新型批判生成模型,可以与GPT-4相媲美。实验结果表明,在8个任务中有3个胜过GPT-4。该模型具有可扩展性特性,生成的批评可以作为反馈,提高语言模型的生成质量。

相关推荐 去reddit讨论

BriefGPT - AI 论文速递 -

LLM-State:开放世界长期规划的可扩展状态表示

本研究通过使用大规模语言模型(LLM)来解决开放式家庭环境中长期任务规划的问题。我们提出了一种新颖的可扩展状态表示方法,利用 LLM 的上下文理解和历史行为推理能力来持续扩展和更新对象属性。我们的模型在模拟和现实世界的任务规划场景中验证,表明在需要长期跟踪和推理状态的各种任务中,与基准方法相比取得了显著的改进。

AI生成摘要 本研究使用大规模语言模型(LLM)解决开放式家庭环境中长期任务规划的问题。通过新颖的状态表示方法和LLM的能力,模型在模拟和现实世界的任务规划场景中取得了显著的改进。

相关推荐 去reddit讨论

BriefGPT - AI 论文速递 -

台湾 LLM:用文化对齐的语言模型填补语言差距

台灣 LLM 是第一個專門為繁體中文設計的大型語言模型,能夠理解並產生傳統中文文本,並在文化語境上與用戶群體達到共鳴。

AI生成摘要 本文介绍了全面中文基准CMMLU,评估了18种LLMs的性能,结果显示大多数LLM的准确性不足50%,需要改进。

相关推荐 去reddit讨论

BriefGPT - AI 论文速递 -

FlowZero:基于 LLM 驱动的动态场景语法的零样本文本到视频合成

Text-to-video generation using FlowZero, a framework that combines Large Language Models (LLMs) with image diffusion models, achieves improvement in zero-shot video synthesis by generating coherent videos with vivid motion.

AI生成摘要 ModelScopeT2V是一个文本到视频合成模型,通过时空块确保帧生成和运动过渡的一致性。该模型适用于不同帧数量的图像-文本和视频-文本数据集。它由VQGAN、文本编码器和去噪UNet组成,共有17亿参数,其中5亿参数用于时序能力。该模型在三个评估指标上表现出优越性能,优于现有方法。

相关推荐 去reddit讨论

BriefGPT - AI 论文速递 -

BioLORD-2023: 融合 LLM 和临床知识图谱洞察的语义文本表示

我们在本研究中探讨了大型语言模型在补充生物医学知识图谱中的潜力,通过利用 UMLS 知识图谱和先进的大型语言模型,我们提出了一种新的先进方法,通过改进的对比学习阶段、新颖的自蒸馏阶段和权重平均化阶段,获得了生物医学概念和句子的高保真度表示。通过对 BioLORD 测试套件的严格评估和多样化的下游任务,我们证明了与以往先进技术相比的一致且显著的性能改进(例如,在 MedSTS 上提高了 2 点,在 MedNLI-S 上提高了 2.5 点,在 EHR-Rel-B 上提高了 6.1 点)。除了我们的新型英文生物医学模型外,我们还蒸馏并发布了与 50 多种语言兼容并在 7 种欧洲语言上进行了微调的多语言模型。我们最新的模型可以使许多临床流程受益,开启了生物医学语义表示学习在多种语言中发展的新途径,为全球的生物信息学研究人员提供了宝贵的工具。因此,我们希望看到 BioLORD-2023 成为未来生物医学应用的宝贵工具。

AI生成摘要 本研究探讨了大型语言模型在补充生物医学知识图谱中的潜力。通过改进的对比学习、自蒸馏和权重平均化阶段,获得了高保真度的生物医学概念和句子表示。在多个任务上,与以往技术相比,性能有显著提升。还发布了与多种语言兼容的多语言模型。这些模型可以在临床流程中受益,并为全球生物信息学研究人员提供宝贵工具。希望BioLORD-2023成为未来生物医学应用的宝贵工具。

相关推荐 去reddit讨论

BriefGPT - AI 论文速递 -

自校正的 LLM 控制扩散模型

使用 Self-correcting LLM-controlled Diffusion (SLD) 框架,该研究提出了一种迭代闭环过程,能够根据输入的提示生成图像、评估其与提示的对齐性,并纠正生成图像中的不准确性,从而提高文本到图像生成的正确性。该研究还发现,通过调整 LLM 的指令,SLD 可以执行图像编辑任务,弥合文本到图像生成与图像编辑流程之间的差距。

AI生成摘要 利用大型语言模型 (LLM) 从文本提示中提取关键组件,包括前景对象的边界框坐标、各个对象的详细文本描述和简洁的背景上下文。这些组件构成了布局到图像生成模型的基础,该模型通过两个阶段的操作实现,初步生成全局场景后,使用迭代细化方案对内容进行评估和修正,以确保与文本描述的一致性,从而在生成复杂的场景时展现出比传统扩散模型更好的召回率,经由用户研究进一步验证了我们的方法在从错综复杂的文本输入中生成连贯详细场景方面的功效。

相关推荐 去reddit讨论

BriefGPT - AI 论文速递 -

Cerbero-7B: 通过增强对话语料库生成和评估实现语言特定 LLM 的重大进展

该研究介绍了使用自我聊天机制生成高质量、语言特定的聊天语料库的新方法。我们结合了一个生成器 LLM 以创建新样本,并使用一个嵌入器 LLM 以确保多样性。我们提出了一种基于蒙板语言模型(MLM)的质量评估度量方法,用于评估和过滤语料库。利用 llama2-70b 作为生成器和多语言句子转换器作为嵌入器,我们生成了意大利聊天语料库并改进了基于翻译的英语 ChatGPT 自我聊天数据的 Fauno 语料库。改进使用了结构断言和自然语言处理技术。这两个语料库都经过了基于提出的 MLM 模型的全面质量评估。用这些语料库来微调意大利 LLM 可以显著提升语言理解和问答能力。由此产生的模型 cerbero-7b 为意大利 LLM 建立了一个新的最先进水平。这种方法标志着发展语言特定 LLM 的重大进展,特别强调增加支持意大利等少数语言的语料库。

AI生成摘要 该研究介绍了一种使用自我聊天机制生成高质量、语言特定的聊天语料库的新方法。研究者结合了生成器和嵌入器,提出了一种基于蒙板语言模型的质量评估度量方法。他们生成了意大利聊天语料库,并改进了基于翻译的英语聊天数据的Fauno语料库。使用这些语料库来微调意大利LLM可以提升语言理解和问答能力。这种方法对于发展语言特定LLM具有重要意义,特别是对于支持少数语言如意大利语的语料库。

相关推荐 去reddit讨论

BriefGPT - AI 论文速递 -

开源 LLM 指令调整的自动指令优化

通过自动修订样本来增强指令数据集的质量,CoachLM 训练自人工专家修订过的样本,并将数据集中高质量样本的比例从 17.7%提高到 78.9%。CoachLM 通过平均 29.9%的提升改善了指令调优的语言学习模型的指令跟随能力,并在华为的 LLM 数据管理系统中实现了高达 20%的效率提升。

AI生成摘要 这项研究评估了10个开源指导式LLMs在代码理解和生成任务上的表现。结果显示,在零样本和少样本设置下,指导式LLMs表现非常有竞争力。添加演示示例可以帮助提高模型性能,但有时会导致不稳定或更差的表现。基于BM25的选样策略在生成问题上优于随机选样。微调可以进一步提高模型性能。指导式LLMs在微调后的性能优于其他模型。研究提出了模型和使用建议、性能和成本的权衡以及未来方向的实用影响。

相关推荐 去reddit讨论

BriefGPT - AI 论文速递 -

AS-LLM:算法选择与大型语言模型相结合

该论文提出了一种将算法表示集成到算法选择过程中的方法,通过模块化提取问题和算法的表示,利用预训练的 LLMs 来计算匹配度,实验证实了该模型的有效性以及预训练 LLMs 的性能,表明该算法选择框架有潜力作为评估 LLMs 编码表示能力的基准任务。

AI生成摘要 该论文提出了一种算法选择方法,通过模块化提取问题和算法的表示,并利用预训练的LLMs计算匹配度。实验证实了该模型的有效性和LLMs的性能,可作为评估LLMs编码能力的基准任务。

相关推荐 去reddit讨论

BriefGPT - AI 论文速递 -

恶魔天才:深入探究基于 LLM 的智能体的安全性

通过对大型语言模型(LLMs)进行安全评估,揭示了 LLM-based agents 面临的挑战、安全漏洞以及对未来研究的启示。

AI生成摘要 本研究探索了大型语言模型在威胁推理、工具信息生成和自动化网络攻击方面的潜力,讨论了 LLM 在支持特定威胁相关行动和决策方面的手动与自动化探索,以及对威胁网络潜在影响和使用 LLM 加速威胁行为能力的伦理考量,对诱导可操作反应的提示设计进行了评估和启发,并提出了探索 LLM 在更复杂网络、高级漏洞和提示敏感性方面的未解问题。

相关推荐 去reddit讨论

热榜 Top10
...
ShowMeBug
...
天勤数据
...
观测云
...
白鲸技术栈
...
LigaAI
...
eolink
...
Dify.AI
推荐或自荐