2026年4月16日,第三届Yandex...
本研究针对现有机器学习模型在生成俄语代码注释时的低效问题,提出了首个大规模的专用数据集StRuCom(包含153K个示例)。该数据集结合了来源于俄语GitHub仓库的人类编写的注释与合成生成的注释,确保符合多种编程语言的标准,并在对Qwen2.5-Coder模型进行微调时,显著提高了模型的性能。
本研究解决了生成模型训练集中自然语言文本质量不足的问题,尤其是在诗歌创作中。我们提出了一种自动语言异常检测的方法,能够有效识别和过滤低质量文本,进而提升生成模型的输出质量。最重要的发现是,通过引入RUPOR数据集和比较多种异常检测方法,本研究为提高创意领域训练数据集的质量提供了有效工具和见解。
本研究探讨了在资源有限的俄语中实现临床编码自动化的可行性。我们提供了一个新的ICD编码数据集,包括从电子健康记录中注释的诊断字段,具有超过10,000个实体和1,500多个独特的ICD代码,实验表明在经过训练的自动化预测代码下,准确性显著提高,展示了在资源有限语言中实现临床编码自动化的潜力。
GamaCopy模仿俄罗斯Gamaredon APT,自2021年起活跃,主要针对俄语目标,使用军事主题诱饵和UltraVNC进行远程控制,攻击对象包括俄罗斯国防和基础设施。研究人员将其与Core Werewolf关联,并发布了入侵指标。
LEP(学习嵌入传播)是一种创新方法,旨在解决大语言模型在资源有限语言(如俄语)中的适应问题。通过LEP,研究人员成功调整了LLaMa-3-8B和Mistral-7B模型,提升了其性能,促进了自然语言处理技术的民主化和多语言AI应用的发展。
本研究针对传统大语言模型在特定语言适应时数据需求高、成本昂贵的问题,提出了一种新方法——学习嵌入传播(LEP)。该方法通过直接将新语言知识植入现有的指令调优模型中,降低了所需训练数据量,实验证明其性能与传统调优方法相当,且在自校准和持续调优下可进一步提升任务解决能力。
本研究提出了CleanComedy,一个经过过滤的英语和俄语笑话语料库,旨在解决自然语言处理中的幽默生成问题。研究验证了数据过滤方法的有效性,显著提高了计算机生成幽默的质量。
我的最新项目是一个结合强大语言模型助手的Flashcards游戏,旨在通过互动游戏和AI辅导,使英语和俄语学习变得有趣有效。主要特点包括个性化指导、互动闪卡和有趣的学习游戏。欢迎反馈!
本研究探讨了俄语科学关键短语生成的挑战,并评估了基于提示的大型语言模型在此任务中的表现。结果表明,这些模型在简单提示下的表现优于常见基准,具有重要的应用潜力。
该研究探讨了自动语音识别(ASR)系统在不同口音上的普适性,提出了新学习机制和算法以提高识别准确性。研究表明,跨语言知识转移和无监督文本到语音合成能显著降低错误率。此外,MSR-86K语料库的发布将推动多语言ASR研究的发展。
该研究探讨了神经网络语言模型在计算俄语语义相似度中的应用,分析了不同模型的性能,并提出了新的评估资源和基准测试,以提升俄语自然语言处理的效果。
研究评估了多个大型语言模型在长上下文理解中的表现,发现GPT-3.5-Turbo-16k在商业模型中表现优于开源模型,但在处理超长上下文时仍存在显著不足。新基准测试LIConBench和LongHealth揭示了模型在长文本和医疗数据处理中的挑战,强调了改进模型以实现更可靠应用的必要性。
本研究探讨了大型语言模型(LLMs)在命名实体识别(NER)任务中的应用,提出了NuNER模型,展示了其在少样本学习中的优势。研究表明,预训练数据集的规模和多样性对性能至关重要。结合小型微调模型和不确定性策略显著提升了NER任务的表现,实验结果显示LLMs在低资源学习中优于传统监督模型,推动了上下文学习的研究进展。
本文介绍了多个自动文本摘要数据集,包括Gazeta、M3LS和MLSUM,涵盖俄语及多语言新闻报道。研究表明,预训练的mBART模型适用于俄语摘要任务,并提出了新的多模态摘要生成方法,展示了在科学领域的应用潜力。
该论文研究了阿拉伯语新闻中使用文本蕴含的应用,并使用了新的语料库。作者开发了两个机器学习模型,用于断言验证和立场预测任务。最佳模型使用预训练(BERT)在立场预测任务上取得了76.7 F1的成绩,在断言验证任务上取得了64.3 F1的成绩。结果显示,预训练学习到的语言特征和世界知识对立场预测有用,但对于没有上下文或证据的断言验证不够。
在多语种语音识别系统中,当语言事先未知但信号已接收并进行处理时,需要使用广义模型来对语音进行识别,根据语音差异来判断所需语言,为此需要设置语音参数值并比较相似声音以确定重要差异。
通过研究生成式大型语言模型在机器翻译中的性能,发现多语言模型在人工翻译输出方面表现类似人类水平。针对流行的语言模型作为机器翻译工具的错误和限制进行分类和提出设计提示进行上下文学习的方法。旨在促进生成式大型语言模型在机器翻译中的进步。
本研究介绍了LLMeBench框架,用于评估大型语言模型在不同语言的NLP任务中的性能。该框架可定制任何NLP任务和模型,并具有零样本学习和少样本学习的设置。已在31个NLP任务中进行了测试,计划开源给社区。
奇安信发现微软商店上的俄语版7-Zip携带病毒,黑客通过微软商店发布带毒版并通过审核。部分用户因相信微软品牌声誉而安装了这款带毒版,导致恶意软件攻击。黑客利用Discord托管病毒。奇安信向微软和Discord通报病毒。病毒通过诱导用户开启浏览器的网页推送通知功能来推送色情信息。带毒版7-Zip在8月下载量上升,可能因为WinRAR漏洞。
完成下面两步后,将自动完成登录并继续当前操作。