正则表达式是计算机科学的重要理论,自70年代末成为Unix的关键特性,广泛应用于程序设计。本文介绍了其理论、实现及使用方法。
本研究解决了语言模型在自然语言获取中存在的正式语言预训练效果不清晰的问题。通过结合语言学和复杂性理论的见解,提出了有效转移的假设,即正式语言能同时捕捉自然语言中的依赖结构并符合模型架构的计算限制。研究发现,形式语言的预预训练能显著降低模型在自然语言上的损失,并提高语言模型的语言泛化能力,尤其在模型规模较小的情况下,效果更为显著。
本研究解决了检索增强技术与大型语言模型结合在高级推理任务中的应用不足问题,尤其是在生成和评估数学语句及证明方面。通过使用Lean语言构建知识库,为检索增强系统提供支持,期望为提升大型语言模型在高级逻辑推理任务中的性能打下基础。
本研究探讨了神经网络在形式语言理论中的应用,重点是将机器训练为字符串的二元分类器。研究结果表明,RNN和LSTM在性能上优于变压器,并发布了FLaRe数据集作为基准,为未来的语言识别理论提供了实证基础。
印度理工学院马德拉斯分校的课程“自动机、形式语言与计算理论”介绍计算系统的基本概念,如有限状态机和图灵机,强调实践应用。完成后可获得证书,助力计算机科学职业发展。GetVM的Playground扩展提供在线编程环境,帮助学员实践。
该研究探讨了大型语言模型的可扩展性和上下文学习能力,发现模型规模扩大能提升性能。通过实验验证,提出了抑制单语义性的方法,并分析了新能力的形成机制,强调了上下文学习的重要性。研究结果为理解模型能力提供了新视角,并呼吁AI公司合作以扩展研究。
本研究探讨了形式语言在数量化概率推理和因果效应中的应用,分析了可满足性问题的计算复杂性。研究涉及三层因果关系,涵盖概率逻辑、do-calculus推理和反事实查询,证明了相关语言的可满足性和有效性可在多项式空间内判定。同时,提出了新的反事实推断方法和概率时序逻辑,探讨了马尔可夫链的复杂性问题。
该研究介绍了使用语法宏对有限形式语言进行重写的问题,并提出了多项式时间算法来解决该问题的变体。通过应用算法于OWL编写的生物医学本体论,证明了该问题的实际相关性和算法的可行性和有效性。该方法有助于提升本体质量和理解方面,并分析和评估重写系统的特性。
研究使用Codex探讨将自然语言书写的数学转化为可以被程序检查正确性的形式语言的能力。Codex可以以近75%的准确率进行短数学陈述的形式化,并以自然语言形式翻译本科水平的13个定理的证明。大型语言模型是完全或部分自动化形式化的有前景的途径。
研究发现ChatGPT在处理复杂推理任务时存在局限性,但在处理大量自然语言或理解明确的棋盘状态时决策能力增强。这为突破自然语言处理的局限和展示类人认知能力的模型提供了宝贵信息。
完成下面两步后,将自动完成登录并继续当前操作。