小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

2026年4月16日,第三届Yandex...

这家俄罗斯科技巨头,正在助力中国开发者开拓俄语区市场

游戏研究社
游戏研究社 · 2026-04-19T16:00:00Z

本研究针对现有机器学习模型在生成俄语代码注释时的低效问题,提出了首个大规模的专用数据集StRuCom(包含153K个示例)。该数据集结合了来源于俄语GitHub仓库的人类编写的注释与合成生成的注释,确保符合多种编程语言的标准,并在对Qwen2.5-Coder模型进行微调时,显著提高了模型的性能。

StRuCom:一套新的俄语结构化代码注释数据集

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-16T00:00:00Z

本研究解决了生成模型训练集中自然语言文本质量不足的问题,尤其是在诗歌创作中。我们提出了一种自动语言异常检测的方法,能够有效识别和过滤低质量文本,进而提升生成模型的输出质量。最重要的发现是,通过引入RUPOR数据集和比较多种异常检测方法,本研究为提高创意领域训练数据集的质量提供了有效工具和见解。

检测俄语诗歌文本中的拼写和语法异常

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-07T00:00:00Z

本研究探讨了在资源有限的俄语中实现临床编码自动化的可行性。我们提供了一个新的ICD编码数据集,包括从电子健康记录中注释的诊断字段,具有超过10,000个实体和1,500多个独特的ICD代码,实验表明在经过训练的自动化预测代码下,准确性显著提高,展示了在资源有限语言中实现临床编码自动化的潜力。

RuCCoD:朝着在俄语中实现自动化ICD编码

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-28T00:00:00Z

GamaCopy模仿俄罗斯Gamaredon APT,自2021年起活跃,主要针对俄语目标,使用军事主题诱饵和UltraVNC进行远程控制,攻击对象包括俄罗斯国防和基础设施。研究人员将其与Core Werewolf关联,并发布了入侵指标。

新威胁组织GamaCopy模仿俄罗斯Gamaredon APT,针对俄语目标发起攻击

FreeBuf网络安全行业门户
FreeBuf网络安全行业门户 · 2025-01-27T04:28:26Z
革命性语言模型:LEP与俄语适应的突破

LEP(学习嵌入传播)是一种创新方法,旨在解决大语言模型在资源有限语言(如俄语)中的适应问题。通过LEP,研究人员成功调整了LLaMa-3-8B和Mistral-7B模型,提升了其性能,促进了自然语言处理技术的民主化和多语言AI应用的发展。

革命性语言模型:LEP与俄语适应的突破

DEV Community
DEV Community · 2025-01-03T00:05:03Z

本研究针对传统大语言模型在特定语言适应时数据需求高、成本昂贵的问题,提出了一种新方法——学习嵌入传播(LEP)。该方法通过直接将新语言知识植入现有的指令调优模型中,降低了所需训练数据量,实验证明其性能与传统调优方法相当,且在自校准和持续调优下可进一步提升任务解决能力。

通过学习的嵌入传播促进大语言模型的俄语适应

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-30T00:00:00Z

本研究提出了CleanComedy,一个经过过滤的英语和俄语笑话语料库,旨在解决自然语言处理中的幽默生成问题。研究验证了数据过滤方法的有效性,显著提高了计算机生成幽默的质量。

CleanComedy:通过生成技术创造友好的幽默

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-12T00:00:00Z

本研究基于BERT的迁移学习开发了词性标注模型,成功提取句子结构。经过在俄语文本上的微调,模型有效提升了自然语言处理任务的准确性。

利用词性标注突出句子的骨架结构

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-21T00:00:00Z
推出结合语言模型助手的闪卡游戏

我的最新项目是一个结合强大语言模型助手的Flashcards游戏,旨在通过互动游戏和AI辅导,使英语和俄语学习变得有趣有效。主要特点包括个性化指导、互动闪卡和有趣的学习游戏。欢迎反馈!

推出结合语言模型助手的闪卡游戏

DEV Community
DEV Community · 2024-11-06T06:15:37Z

本研究探讨了选择俄语关键短语的挑战,评估了基于提示的方法在科学摘要中的表现,结果显示其优于常见基准,具有重要应用潜力。

关键短语生成的关键算法:基于指令的大型语言模型用于俄语科学关键短语

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-23T00:00:00Z

本文研究了无监督文本到语音合成技术在改进口音语音识别中的应用。通过少量口音数据和伪标签生成合成语音,与无口音数据结合用于训练语音识别模型。实验表明,使用合成口音数据微调的Wav2vec2.0模型字错误率降低了6.1%。

自动重音标注和俄语文本转录的算法

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-03T00:00:00Z

该论文介绍了俄语SuperGLUE 1.1,这是一个基于GLUE风格的更新版基准测试,专为俄语NLP模型设计。新版包括了各种技术、用户体验和方法论的改进,并提升了基准测试工具包,以支持各种架构的NLP模型。作者还将SuperGLUE整合到开源模型的产业评估框架MOROCCO中,以多种指标评估模型的性能。

俄罗斯专注的嵌入模型探索:ruMTEB基准和俄语嵌入模型设计

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-22T00:00:00Z

LLMs在处理医疗保健领域的患者记录方面具有潜在优势,但现有基准测试不能充分评估LLMs在处理真实世界中的冗长临床数据方面的能力。通过提供包含20个详细虚构病例的LongHealth基准测试,评估了9个开源LLMs和OpenAI的GPT-3.5 Turbo。结果显示,Mixtral-8x7B-Instruct-v0.1在检索信息任务上表现最好,但所有模型在识别缺失信息的任务中遇到困难,强调了临床数据解释中需要改进的关键领域。当前LLMs的准确性水平对于可靠的临床使用是不足的,需要进一步改进模型以实现安全有效的临床应用。提供了基准测试和评估代码。

俄语分析的长文输入基准

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-05T00:00:00Z

本文介绍了解决SemEval 2023 Task 2的体系结构和系统,评估了传统的条件随机场模型和经过自定义头部微调的大型语言模型(LLM)。通过新的想法提高了模型性能,包括衰减辅助损失、三元标记混合和任务最优头部。最终模型在开发数据上达到了0.85/0.84的微观和宏观F1值,并在测试数据上达到了0.67/0.61。证明了LLM和额外特征/损失/模型工程技术的组合可以显著提高宏观F1分数。

基于编码器的实体识别器与大型语言模型在提取俄语职位空缺技能方面的比较分析

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-29T00:00:00Z

该论文介绍了俄语语言最小对对比基准(RuBLiMP),包含45k对句子,利用开放文本语料库的自动注释句子筛选测试数据。对25种语言模型进行评估,发现俄语广泛使用的语言模型在形态和一致性方面较为敏感,但与人类相比存在差距。RuBLiMP、代码和其他材料可公开获取。

俄文语言最小对的评估基准:RuBLiMP

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-27T00:00:00Z

该论文创建了一个多模态数据集,包含文本、表格和图形,并测试了现有的语言模型在自动文本摘要任务上的表现。实验使用了SBER的Gigachat和Yandex的YandexGPT两个语言模型。数据集包含420篇论文,可在指定的URL上获取。

用于科学论文自动摘要的俄语多模态数据集

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-05-13T00:00:00Z

该论文研究了阿拉伯语新闻中使用文本蕴含的应用,并使用了新的语料库。作者开发了两个机器学习模型,用于断言验证和立场预测任务。最佳模型使用预训练(BERT)在立场预测任务上取得了76.7 F1的成绩,在断言验证任务上取得了64.3 F1的成绩。结果显示,预训练学习到的语言特征和世界知识对立场预测有用,但对于没有上下文或证据的断言验证不够。

Stanceosaurus 2.0: 对俄语和西班牙语虚假信息进行态度分类

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-02-06T00:00:00Z

在多语种语音识别系统中,当语言事先未知但信号已接收并进行处理时,需要使用广义模型来对语音进行识别,根据语音差异来判断所需语言,为此需要设置语音参数值并比较相似声音以确定重要差异。

俄语和英语元音声音参数的比较

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-01-26T00:00:00Z

通过研究生成式大型语言模型在机器翻译中的性能,发现多语言模型在人工翻译输出方面表现类似人类水平。针对流行的语言模型作为机器翻译工具的错误和限制进行分类和提出设计提示进行上下文学习的方法。旨在促进生成式大型语言模型在机器翻译中的进步。

大语言模型的机器翻译:波斯语,英语和俄语方向的提示工程

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-01-16T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码