本研究提出了WinoWhat,一个新的语料库,包含WinoGrande验证集的意译,并评估语言模型在五个常识知识类别上的表现。结果显示,所有模型在WinoWhat上的表现远低于预期,表明对WinoGrande的推理能力评估被高估。
本研究提出FRIDA模型,以解决小型语言模型在灾难响应中对复杂常识知识的不足。通过结合专家知识生成合成数据,FRIDA在多个规模上优于基础模型,但在特定领域知识的检索能力上仍需提升。
本研究提出了ConceptEdit框架,旨在解决大型语言模型中的常识知识编辑问题,从而提升其推理能力。实验结果表明,该框架在知识生成和问答测试中表现优于其他模型。
本文探讨了常识知识的模糊定义及其在自然语言处理中的应用,指出常识基准测试存在的问题,影响模型的推理能力。提出统一的常识知识定义,并在CommonsenseQA和CommonsenseQA 2.0数据集上进行实验,发现模型在常识知识实例上的表现显著低于其他实例。
本研究提出了一种基于图的多模态常识知识蒸馏框架,旨在解决视觉问答中的常识知识挑战。该框架通过图卷积网络整合常识知识、视觉对象和问题,在ScienceQA数据集上取得了优异的表现。
本研究分析大型语言模型在生成常识知识时的不足,特别是对日常物体的材料和部件提取能力。结果显示,这些模型在识别物体部件和材料方面的覆盖性和可靠性,为人工智能研究和多步问答提供了有价值的知识。
本研究提出了一种基于单张环境图像的多智能体架构,解决了大型语言模型和视觉语言模型在融合多模态信息时表现不佳的问题。通过利用常识知识进行自由形式域的处理,并引入新的评估程序PG2S,该方法在评估规划质量方面优于现有的KAS指标。
通过实证研究荷兰语文本简化,设计了可配置的文本简化流水线,揭示了自动文本简化的优势和处理文化、常识知识的挑战,为未来研究和实践提供启示。
该文章介绍了一种基于图像流的多模态人类水平故事生成方法,通过利用常识知识和文本推理架构,增强实际内容表达并保持序列一致性。经过人工评估,该方法在故事性能方面超过了之前的最佳方法,消融实验也验证了序列数据增强和SQ-Adapter的有效性。
AI模型使用问答数据集提供定制化问答功能,支持儿童教育应用。引入FairytaleCQA数据集,补充教育适用的常识知识。实验结果显示,微调较小模型使用FairytaleCQA胜过更大的提示工程化语言模型。人类专家的数据注释仍然重要。
CogNet是一个整合了语言知识、世界知识和常识知识的知识库,采用三层统一的框架式表示架构,并通过混合自动标注和众包注释的策略将常识知识与其他结构化知识集成。目前,CogNet包含1000+个语义框架、2000万+个实例和90000+个常识知识断言。用户可以在在线平台上查询和探索,并以RDF格式免费下载使用。
完成下面两步后,将自动完成登录并继续当前操作。