2026年4月16日,第三届Yandex...
本研究针对现有机器学习模型在生成俄语代码注释时的低效问题,提出了首个大规模的专用数据集StRuCom(包含153K个示例)。该数据集结合了来源于俄语GitHub仓库的人类编写的注释与合成生成的注释,确保符合多种编程语言的标准,并在对Qwen2.5-Coder模型进行微调时,显著提高了模型的性能。
本研究解决了生成模型训练集中自然语言文本质量不足的问题,尤其是在诗歌创作中。我们提出了一种自动语言异常检测的方法,能够有效识别和过滤低质量文本,进而提升生成模型的输出质量。最重要的发现是,通过引入RUPOR数据集和比较多种异常检测方法,本研究为提高创意领域训练数据集的质量提供了有效工具和见解。
本研究探讨了在资源有限的俄语中实现临床编码自动化的可行性。我们提供了一个新的ICD编码数据集,包括从电子健康记录中注释的诊断字段,具有超过10,000个实体和1,500多个独特的ICD代码,实验表明在经过训练的自动化预测代码下,准确性显著提高,展示了在资源有限语言中实现临床编码自动化的潜力。
GamaCopy模仿俄罗斯Gamaredon APT,自2021年起活跃,主要针对俄语目标,使用军事主题诱饵和UltraVNC进行远程控制,攻击对象包括俄罗斯国防和基础设施。研究人员将其与Core Werewolf关联,并发布了入侵指标。
LEP(学习嵌入传播)是一种创新方法,旨在解决大语言模型在资源有限语言(如俄语)中的适应问题。通过LEP,研究人员成功调整了LLaMa-3-8B和Mistral-7B模型,提升了其性能,促进了自然语言处理技术的民主化和多语言AI应用的发展。
本研究针对传统大语言模型在特定语言适应时数据需求高、成本昂贵的问题,提出了一种新方法——学习嵌入传播(LEP)。该方法通过直接将新语言知识植入现有的指令调优模型中,降低了所需训练数据量,实验证明其性能与传统调优方法相当,且在自校准和持续调优下可进一步提升任务解决能力。
本研究提出了CleanComedy,一个经过过滤的英语和俄语笑话语料库,旨在解决自然语言处理中的幽默生成问题。研究验证了数据过滤方法的有效性,显著提高了计算机生成幽默的质量。
本研究基于BERT的迁移学习开发了词性标注模型,成功提取句子结构。经过在俄语文本上的微调,模型有效提升了自然语言处理任务的准确性。
我的最新项目是一个结合强大语言模型助手的Flashcards游戏,旨在通过互动游戏和AI辅导,使英语和俄语学习变得有趣有效。主要特点包括个性化指导、互动闪卡和有趣的学习游戏。欢迎反馈!
本研究探讨了选择俄语关键短语的挑战,评估了基于提示的方法在科学摘要中的表现,结果显示其优于常见基准,具有重要应用潜力。
本文研究了无监督文本到语音合成技术在改进口音语音识别中的应用。通过少量口音数据和伪标签生成合成语音,与无口音数据结合用于训练语音识别模型。实验表明,使用合成口音数据微调的Wav2vec2.0模型字错误率降低了6.1%。
该论文介绍了俄语SuperGLUE 1.1,这是一个基于GLUE风格的更新版基准测试,专为俄语NLP模型设计。新版包括了各种技术、用户体验和方法论的改进,并提升了基准测试工具包,以支持各种架构的NLP模型。作者还将SuperGLUE整合到开源模型的产业评估框架MOROCCO中,以多种指标评估模型的性能。
LLMs在处理医疗保健领域的患者记录方面具有潜在优势,但现有基准测试不能充分评估LLMs在处理真实世界中的冗长临床数据方面的能力。通过提供包含20个详细虚构病例的LongHealth基准测试,评估了9个开源LLMs和OpenAI的GPT-3.5 Turbo。结果显示,Mixtral-8x7B-Instruct-v0.1在检索信息任务上表现最好,但所有模型在识别缺失信息的任务中遇到困难,强调了临床数据解释中需要改进的关键领域。当前LLMs的准确性水平对于可靠的临床使用是不足的,需要进一步改进模型以实现安全有效的临床应用。提供了基准测试和评估代码。
本文介绍了解决SemEval 2023 Task 2的体系结构和系统,评估了传统的条件随机场模型和经过自定义头部微调的大型语言模型(LLM)。通过新的想法提高了模型性能,包括衰减辅助损失、三元标记混合和任务最优头部。最终模型在开发数据上达到了0.85/0.84的微观和宏观F1值,并在测试数据上达到了0.67/0.61。证明了LLM和额外特征/损失/模型工程技术的组合可以显著提高宏观F1分数。
该论文介绍了俄语语言最小对对比基准(RuBLiMP),包含45k对句子,利用开放文本语料库的自动注释句子筛选测试数据。对25种语言模型进行评估,发现俄语广泛使用的语言模型在形态和一致性方面较为敏感,但与人类相比存在差距。RuBLiMP、代码和其他材料可公开获取。
该论文创建了一个多模态数据集,包含文本、表格和图形,并测试了现有的语言模型在自动文本摘要任务上的表现。实验使用了SBER的Gigachat和Yandex的YandexGPT两个语言模型。数据集包含420篇论文,可在指定的URL上获取。
该论文研究了阿拉伯语新闻中使用文本蕴含的应用,并使用了新的语料库。作者开发了两个机器学习模型,用于断言验证和立场预测任务。最佳模型使用预训练(BERT)在立场预测任务上取得了76.7 F1的成绩,在断言验证任务上取得了64.3 F1的成绩。结果显示,预训练学习到的语言特征和世界知识对立场预测有用,但对于没有上下文或证据的断言验证不够。
在多语种语音识别系统中,当语言事先未知但信号已接收并进行处理时,需要使用广义模型来对语音进行识别,根据语音差异来判断所需语言,为此需要设置语音参数值并比较相似声音以确定重要差异。
通过研究生成式大型语言模型在机器翻译中的性能,发现多语言模型在人工翻译输出方面表现类似人类水平。针对流行的语言模型作为机器翻译工具的错误和限制进行分类和提出设计提示进行上下文学习的方法。旨在促进生成式大型语言模型在机器翻译中的进步。
完成下面两步后,将自动完成登录并继续当前操作。