PARAMANU-GANITA: 具备数学能力的语言模型
原文中文,约400字,阅读约需1分钟。发表于: 。Paramanu-Ganita 是一种基于 208 百万参数的全新 Auto Regressive (AR) 解码器的数学语言模型,该模型在数学语料库上进行了从头预训练,在困惑度度量和 GSM8k 数学基准测试中表现出色,优于多个专业和通用的大型语言模型,表明语言模型的推理能力并不仅限于具有庞大参数数量的模型。
本研究使用16,000个泰米尔语令牌增强了开源的LLaMA模型,解决了现有切尖模型中泰米尔语等语种的性能不佳问题。采用LoRA方法进行高效的模型训练,并引入了泰米尔语翻译版本的Alpaca数据集和OpenOrca数据集的子集进行微调。实验结果显示在泰米尔语文本生成方面有显著的性能改进,对印度语言切尖模型的应用具有重要意义。通过公开模型、数据集和代码,进一步促进语言建模领域的创新。