我是伊朗独立开发者Shahab Nazari,创建了免费的波斯语AI聊天机器人AI Shahab,使用我自己的语言模型“cas”。该项目旨在为全球波斯语用户提供AI工具。欢迎访问并反馈!
本研究提出FarsEval-PKBETS基准,包含4000个多样化问题,旨在评估波斯语大型语言模型的性能。测试结果显示,现有模型的平均正确率低于50%,表明其在复杂波斯语任务中存在显著能力缺陷。
本研究提出了一种评估框架,旨在将波斯语大型语言模型(LLMs)与安全性、公平性和社会规范等伦理维度对齐。通过创建多种波斯语数据集,为评估波斯语LLMs提供新的方法和数据基础,促进本土文化的合规性。
电影《波斯语课》讲述了一名犹太人在二战中为生存而虚构波斯语的故事。他通过教授德国军官这种虚构语言,成功隐藏了自己的身份。影片引发了对语言学习和生存压力的思考,反映了文化和环境对人类行为的影响。
本研究建立了波斯语文本嵌入的全面基准,涵盖63个数据集和七种任务,首次引入聊天机器人评价数据集和新摘要检索任务,推动波斯语自然语言处理的发展。
本研究推出了Matina语料库,包含72.9B标记,解决了波斯语数据集稀缺问题。该语料库经过预处理和去重,确保数据质量,为波斯语自然语言处理模型的发展奠定基础。
本研究探讨了大型语言模型在波斯语文化适应性评估中的不足。通过引入PerCul数据集,采用故事驱动的多项选择题,旨在提高模型的文化敏感性。实验结果显示,现有模型与用户基准之间存在11.3%的差距,最佳模型的差距达到21.3%。
本研究解决了在低资源语言中构建检索增强生成(RAG)系统的特定障碍,特别是波斯语复杂的形态学和多样的句法。通过引入波斯语特定模型和全面的基准框架,研究显示MatinaSRoberta在上下文相关性和检索准确性上优于之前的嵌入方法,这为波斯语的RAG系统发展和自然语言处理应用如搜索引擎和法律文件分析提供了重要的潜力。
本研究针对波斯语问答系统资源匮乏的问题,提出了一个全面的开放域数据集NextQuAD,包含7515个上下文及23918个问答。研究中应用了基于BERT的问答模型,并通过与其他波斯语数据集的比较,显示出NextQuAD在提高准确率方面的显著贡献。
本文探讨了在中等资源场景下,短语基础统计机器翻译(PBSMT)如何超越基于Transformer的神经机器翻译(NMT),尤其是对于结构相似的语言对,如波斯语和印地语。研究结果显示,PBSMT在同一数据集上的BLEU得分为66.32,显著高于NMT的53.7,强调了根据语言特征选择合适翻译架构的重要性,并支持在NMT主导的环境中PBSMT作为高效替代方案的有效性。
本研究介绍了FarExStance,一个用于波斯语可解释立场检测的新数据集。微调的RoBERTa模型在立场检测中表现最佳,而Claude-3.5-Sonnet在解释质量上表现突出,对波斯语立场检测具有重要意义。
本研究提出了一种多阶段的参数高效微调方法,旨在将波斯语融入Llama模型,提高其在波斯语分类任务中的准确性,同时对英语任务无负面影响,甚至有所改善。
本研究解决了不同提示方法和大型语言模型(LLMs)与神经机器翻译(NMT)组合在成语翻译中的影响尚未深入研究的空白。通过引入包含成语的双语数据集并评估多种模型,研究发现Claude-3.5-Sonnet在翻译中表现出色,而结合较弱的LLMs与谷歌翻译可以改善英语到波斯语的翻译结果,这为未来的翻译系统提供了重要的见解。
大型语言模型(LLMs)面临幻觉和知识更新缓慢等挑战。检索增强生成(RAG)通过从外部知识库检索信息来改善LLMs的输出。本文总结了RAG的三种范式及其组成部分,讨论了评估方法和未来研究方向,强调了RAG在提高LLMs准确性和可靠性方面的潜力。
本文探讨了大型语言模型(LLMs)在马来语和波斯语中的应用与优化,提出了提高资源效率的新框架,分析了小型语言模型(SLMs)的技术创新,并讨论了设备受限环境下的应用挑战与解决方案,强调个性化学习和模型优化的重要性,为未来研究提供指导。
本文介绍了波斯语自然语言处理模型的研究进展,包括ParsBERT、FaBERT和Fa-BERT2BERT等。这些模型在命名实体识别、情感分析和风格转换等任务中表现优异,强调了多样化语料库的重要性。同时,研究发现针对特定任务的模型通常优于通用模型。
该研究介绍了波斯语自然语言推理任务的新数据集FarsTail,包含10,367个样本,旨在为不同语言的NLP研究提供基础。同时,研究提出了EasyInstruct框架,以促进指导处理的研究,提升大型语言模型的性能。
本文探讨了手语识别技术的最新进展,重点介绍了连续手语识别(CSLR)和孤立手语识别(ISLR)方法。研究表明,关键点规范化、图卷积网络和多模态特征融合等技术显著提高了识别准确率,并在多个数据集上验证了其有效性。这些成果对低资源手语语言的研究具有重要意义。
本文探讨了多种深度学习架构和数据增强技术在波斯语情感分析中的应用。实验结果表明,混合模型在积极、消极和中立情感分类上表现优异,F1分数达到78.3%。研究回顾了40种波斯语情感分析方法,分析了不同模型的准确性,并提出了一种新的深度卷积神经网络模型,以提高社交媒体文本的情感分析效果。
本研究评估了GPT-3.5和GPT-4在阿拉伯语自然语言处理任务中的表现,发现GPT-4在五个任务上优于GPT-3.5,并提供了新的Python接口。同时,研究探讨了大型语言模型在编程教育中的应用,正确响应率高达94.4%至95.8%。此外,分析了多语言处理技术的表现,指出在低资源语言上仍需改进。
完成下面两步后,将自动完成登录并继续当前操作。