本文讨论了如何在PostgreSQL中添加波兰语配置。PostgreSQL 19将自动包含波兰语字典,而当前版本需要安装hunspell-pl,并创建文本搜索配置和字典。通过正确配置,可以实现波兰语的词干提取和停用词处理。最后提供了完整的SQL脚本以供测试。
本研究介绍了Bielik v3系列小型波兰语生成文本模型(1.5B和4.5B),通过定制分词器和动态学习率调整,显著提升了模型性能,尤其是4.5B模型在多个基准测试中表现优异,为资源受限的应用提供了高质量的波兰语AI解决方案。
本研究通过加权指令交叉熵损失和自适应学习率优化波兰语文本处理模型,Bielik 11B v2 在基准测试中表现优异,推动了波兰语言人工智能的发展。
本研究解决了斯拉夫语言情感分析中情感三元组提取数据集稀缺的问题,提出了两个新数据集,并评估了结合大型语言模型的ASTE技术的表现。
本研究针对波兰语提出了首个综合基准LLMzSz{\L},填补了现有评估的空白。通过分析波兰中央考试委员会档案中的国家考试题目,研究展示了多语言大语言模型在知识转移方面的优势,并揭示了与单语模型在特定场景下的不同表现。这一工作为考试验证提供了新思路,特别是在识别考试任务中的异常和错误方面。
本研究提出了名为forePLay的波兰语情色内容检测数据集,包含超过24,000个带注释的句子。研究表明,专门的波兰语言模型在检测效果上优于多语言选项,为开发内容审核系统提供了重要框架。
本文探讨了自动收集弱标签数据集的方法及其对神经检索模型性能的影响,发布了包含400,000个波兰语问题的MAUPQA数据集。研究提出了Interactive-KBQA框架,增强了多语种知识图谱问答系统的能力,并在多个数据集上取得了良好结果。此外,基于ChatGPT的CQL生成框架在CCKS 2023竞赛中获得第二名。
本文评估了多种文本嵌入模型,包括波兰语和其他语言的基准测试。研究表明,没有单一模型在所有任务中表现最佳,强调了通用文本嵌入方法的必要性。同时,提出了新的评估框架和模型,展示了在特定领域的性能提升。
本研究探讨了数据量和类似语言对机器翻译迁移学习的影响。结果显示,更多数据通常会提高性能,相关语言在数据有限时也有效。相关语言和更多数据的组合能提高模型性能,证明了其在零样本和小样本时的重要性。
该文章介绍了一种针对波兰语的神经检索器SilverRetriever,通过多样化的数据集训练,实现了比其他模型更好的结果,并且与更大型的多语言模型相竞争。作者还开源了五个新的段落检索数据集。
完成下面两步后,将自动完成登录并继续当前操作。