GOLD: 几何问题解决器与自然语言描述

原文约600字，阅读约需2分钟。发表于：。

通过分别处理图形符号和几何基元来增强几何关系的提取，并将提取的关系转化为自然语言描述，从而高效利用大型语言模型解决几何数学问题。实验证明，GOLD 模型在 UniGeo 数据集上表现优于 Geoformer，并分别在计算和证明子集中提高了 12.7% 和 42.1% 的准确率。此外，在 PGPS9K 和 Geometry3K 数据集上也优于 PGPSNet，分别获得了 1.8% 和 3.2% 的准确率提升。

研究人员成功将现代AI模型与形式系统整合，建立了一个完整兼容的平面几何形式系统。他们提出了几何形式化理论（GFT），构建了包含88个几何谓词和196个定理的形式系统，并开发了形式几何问题解决器（FGPS）。实验证明GFT的正确性和实用性。

相关推荐去reddit讨论

分享给好友

一种模拟下推自动机的仿生自然语言解析器

本文基于 Assembly Calculus 提出了一种新的仿生自然语言解析器（BNLP），整合了递归电路和堆栈电路这两种受循环神经网络和短期记忆机制启发的生物合理结构，能够处理所有正则语言和 Dyck 语言，满足 Chomsky-Schützenberger 定理并解决了原始解析器的缺陷。

相关推荐去reddit讨论

分享给好友

通过大型语言模型实现自然语言数据可视化：一项探索性研究

使用大型语言模型进行自然语言到可视化的转换任务，在分析如何将结构化表格数据转化为 LLM 所需的顺序文本提示时，发现将结构化表格数据转化为程序是有效的，并且在制定提示时考虑表格模式是必要的。同时，通过对比实验发现，LLM 在 NL2Vis 任务中优于基线方法，并且推理模型在提供少量示范的情况下通过上下文学习能够进一步改善性能，时而甚至超过微调模型。最后，分析 LLM 在 NL2Vis 任务中失败的情况，并提出了循环更新的策略，通过链式思维、角色扮演和代码解释等方法来迭代更新结果，实验证实了这种迭代更新的有效性，具有广阔的未来研究潜力。

相关推荐去reddit讨论

分享给好友

我们能捉住大象吗？自然语言生成中幻觉评估的演变：综述

原文约400字，阅读约需1分钟。发表于：。

自然语言生成（NLG）中的幻觉就像房间里的大象，明显却经常被忽视，直到最近取得了显著进展，提高了生成文本的流畅性和语法准确性。对于大型语言模型（LLMs），幻觉可能在各种下游任务和随意对话中发生，需要准确评估以提高可靠性和安全性。然而，目前关于幻觉评估的研究存在很大的差异，人们仍然难以整理和选择最合适的评估方法。此外，随着自然语言处理研究逐渐转向 LLMs 领域，这一问题带来了新的挑战。本文对幻觉评估方法的发展进行了全面调查，旨在解决三个关键方面的问题：1）事实的多样定义和粒度；2）自动评估器的分类及其适用性；3）未解决的问题和未来的方向。

调查自然语言生成中的幻觉评估方法的发展，解决多样定义、分类及未解决问题。

相关推荐去reddit讨论

分享给好友

XNLIeu：巴斯克语的跨语言自然语言推理数据集

原文约300字，阅读约需1分钟。发表于：。

本研究通过将英语 XNLI 语料库机器翻译成巴斯克语，然后进行人工后期处理的步骤来扩展 XNLI，从而对巴斯克语进行低资源跨语言自然语言理解进行评估，结果表明后期处理是必要的，翻译 - 训练跨语言策略在总体上获得更好的结果。

该文章介绍了IndoNLI数据集，是第一个适用于印度尼西亚语的NLI数据集。作者使用MNLI的数据收集协议，收集了近18K个句子对。实验结果显示，XLM-R在该数据集上的性能优于其他预训练模型，但仍远低于人类性能。作者发现专家标注数据比众包标注数据更多样化，注释工件更少。希望该数据集能推动印尼自然语言处理研究的进展。

相关推荐去reddit讨论

分享给好友

SEME 在 SemEval-2024 任务 2 中：对临床试验的自然语言推理进行屏蔽和生成式语言模型的比较

本论文通过在临床试验报告中应用自然语言推理模型进行的一项多证据文本蕴含（NLI）任务，描述了基于微调和合并遮蔽语言模型以及使用模板的大型语言模型（如类比思维链和对比类比思维链）的两种不同方法的测试。使用辅助 Flan-T5 large 模型在 2 次迭代的情况下，实现了最佳系统，得分为 0.57 F1，0.64 忠实度和 0.56 一致性。

相关推荐去reddit讨论

分享给好友

基于解释的自然语言推理的可微整数线性规划求解器

原文约300字，阅读约需1分钟。发表于：。

提出了一种名为 Diff-Comb Explainer 的新方法，它是一种基于可微的黑匣子组合求解器 (DBCS) 的神经符号体系结构，用于基于解释的自然语言推理 (NLI)，通过直接、更精确和高效地将神经表示纳入 ILP 公式中，显著提高了构建解释的精度，一致性和忠实度，在复杂领域为可解释和透明的 NLI 研究提供了新的机会。

Diff-Comb Explainer是一种新的神经符号体系结构，用于基于解释的自然语言推理。它提高了构建解释的精度和一致性，通过将神经表示纳入ILP公式中。这为可解释和透明的NLI研究提供了新的机会。

相关推荐去reddit讨论

分享给好友

透过解决推翻实现自然语言的具有普适性和精确性逻辑推理

原文约400字，阅读约需1分钟。发表于：。

提出了一种名为 GFaiR 的新框架，它引入了分辨解证法的范式，以解决现有大型语言模型在自然语言中表达的形式逻辑理论推理问题上的理论不完备性问题。实验证明，在复杂情境下，我们的系统表现出卓越的性能，同时在简单情境中保持着良好的性能，且 GFaiR 对其推理过程忠实可靠。

LogicAsker是一种用于评估和改进大型语言模型逻辑推理能力的自动方法。它测试了多个语言模型并发现了逻辑推理错误。LogicAsker的测试用例可用于提高语言模型的逻辑推理能力。研究的代码、数据和结果将公开发布。

相关推荐去reddit讨论

分享给好友

上下文感知自然语言跟踪的语言和视觉参考集成

通过自然语言规范（TNL）追踪是在视频序列中根据初始帧的语言描述来稳定地定位目标的方法。本文提出了一种联合多模态追踪框架，通过提示调制模块和统一目标解码模块实现了时间视觉模板和语言表达之间的补充性，并直接在搜索图像上执行整合的查询，以一步预测目标位置。对 TNL2K、OTB-Lang、LaSOT 和 RefCOCOg 进行了大量实验证明了我们所提出方法的有效性，在追踪和地面连接方面与现有方法具有竞争性能。

相关推荐去reddit讨论

分享给好友

基于需求异味的自然语言需求可测试性衡量

原文约400字，阅读约需1分钟。发表于：。

本文提出了一种基于需求异味嗅探和自动生成词典的数学模型，对自然语言需求的可测试性进行评估和排名，并通过经验研究验证了该模型在检测需求异味和测量需求测试性方面的卓越性能。

我们提出了一种新方法来评估语言模型的拟合程度，通过分析生成的文本与人类生成文本的统计倾向是否匹配。研究发现神经语言模型只学会了部分倾向，但与经验性趋势相比更接近理论分布。拟合程度取决于模型架构和生成策略。

相关推荐去reddit讨论

分享给好友

观测云	LigaAI
Dify.AI	eolink