正则表达式是计算机科学的重要理论,自70年代末成为Unix的关键特性,广泛应用于程序设计。本文介绍了其理论、实现及使用方法。
本研究解决了语言模型在自然语言获取中存在的正式语言预训练效果不清晰的问题。通过结合语言学和复杂性理论的见解,提出了有效转移的假设,即正式语言能同时捕捉自然语言中的依赖结构并符合模型架构的计算限制。研究发现,形式语言的预预训练能显著降低模型在自然语言上的损失,并提高语言模型的语言泛化能力,尤其在模型规模较小的情况下,效果更为显著。
本研究解决了检索增强技术与大型语言模型结合在高级推理任务中的应用不足问题,尤其是在生成和评估数学语句及证明方面。通过使用Lean语言构建知识库,为检索增强系统提供支持,期望为提升大型语言模型在高级逻辑推理任务中的性能打下基础。
本研究探讨了神经网络在形式语言理论中的应用,强调机器作为字符串的二元分类器进行训练。结果显示,RNN和LSTM的性能优于变压器,并发布了FLaRe数据集作为基准。
印度理工学院马德拉斯分校的课程“自动机、形式语言与计算理论”介绍计算系统的基本概念,如有限状态机和图灵机,强调实践应用。完成后可获得证书,助力计算机科学职业发展。GetVM的Playground扩展提供在线编程环境,帮助学员实践。
本研究提出了神经网络背景下的现象学定义,解决了神经网络突现现象。实验证实训练变换器模型在掌握形式语言的语法和上下文相关结构后,能显著提升特定窄任务的性能。为理解和预测神经网络的突现现象提供了新框架。
该研究介绍了使用语法宏对有限形式语言进行重写的问题,并提出了多项式时间算法来解决该问题的变体。通过应用算法于OWL编写的生物医学本体论,证明了该问题的实际相关性和算法的可行性和有效性。该方法有助于提升本体质量和理解方面,并分析和评估重写系统的特性。
研究使用Codex探讨将自然语言书写的数学转化为可以被程序检查正确性的形式语言的能力。Codex可以以近75%的准确率进行短数学陈述的形式化,并以自然语言形式翻译本科水平的13个定理的证明。大型语言模型是完全或部分自动化形式化的有前景的途径。
研究发现ChatGPT在处理复杂推理任务时存在局限性,但在处理大量自然语言或理解明确的棋盘状态时决策能力增强。这为突破自然语言处理的局限和展示类人认知能力的模型提供了宝贵信息。
完成下面两步后,将自动完成登录并继续当前操作。