小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
Hugging Face发布FineTranslations,一个万亿标记的多语言平行文本数据集

Hugging Face发布了FineTranslations数据集,包含超过1万亿个平行文本标记,涵盖英语及500多种语言,旨在改善机器翻译,尤其是英语到低资源语言的翻译。数据集来源于FineWeb2,经过严格筛选和处理,确保质量,可通过Hugging Face访问,支持大规模处理。

Hugging Face发布FineTranslations,一个万亿标记的多语言平行文本数据集

InfoQ
InfoQ · 2026-01-18T08:00:00Z
从零开始构建神经机器翻译 – PyTorch重现7篇重要论文

该课程在freeCodeCamp.org YouTube频道上详细讲解了神经机器翻译的发展历程,包括RNN、LSTM和Seq2Seq模型的历史突破及其数学原理,并通过PyTorch实验帮助学习者逐步重建这些重要论文。

从零开始构建神经机器翻译 – PyTorch重现7篇重要论文

freeCodeCamp.org
freeCodeCamp.org · 2025-12-10T15:23:41Z
绝对初学者的5个有趣的自然语言处理项目

本文介绍了五个自然语言处理(NLP)项目,涵盖文本分词、命名实体识别、情感分析、文本生成和机器翻译等领域,旨在通过实践学习加深对NLP基本概念和应用的理解。

绝对初学者的5个有趣的自然语言处理项目

KDnuggets
KDnuggets · 2025-11-17T13:00:24Z
JetBrains Academy 插件迎来 AI 驱动的学习功能

JetBrains Academy 插件新增机器翻译和理论查询功能,支持10种语言的翻译和术语定义,提升学习效率。更新插件即可体验这些新功能。

JetBrains Academy 插件迎来 AI 驱动的学习功能

The JetBrains Blog
The JetBrains Blog · 2025-10-31T08:46:24Z
迈向机器翻译:来自人类翻译研究的启示

当前语音翻译系统虽然准确,但缺乏灵活性,无法像人类翻译员那样适应实际情况。为提升其实用性,需要深入理解人类翻译的本质。本文探讨人类翻译文献,提出借鉴人类翻译原则以改进机器翻译系统,推动机器翻译的真正进步。

迈向机器翻译:来自人类翻译研究的启示

Apple Machine Learning Research
Apple Machine Learning Research · 2025-10-29T00:00:00Z

阿里国际的AI翻译模型Marco-MT在2025年WMT机器翻译大赛中表现出色,获得6项冠军,超越多款顶尖模型,显示其通用翻译能力得到认可。该模型结合电商翻译经验与创新训练方法,显著提升翻译质量。

阿里国际AI翻译模型Marco霸榜WMT机器翻译大赛最难赛道,拿下六项冠军

量子位
量子位 · 2025-10-23T06:49:54Z
在线教程丨ACL机器翻译大赛30个语种摘冠,腾讯Hunyuan-MT-7B支持33种语言翻译

腾讯发布的Hunyuan-MT-7B翻译模型支持33种语言及5种方言互译,表现优异,赢得WMT2025比赛30项冠军。该模型基于AngelSlim工具,性能提升30%,并推出开源集成模型,能够处理文化特定现象。用户可在HyperAI官网体验该模型的翻译功能。

在线教程丨ACL机器翻译大赛30个语种摘冠,腾讯Hunyuan-MT-7B支持33种语言翻译

HyperAI超神经
HyperAI超神经 · 2025-09-16T05:55:41Z
深入理解大模型 1:Transformer,大模型的基石

本文探讨了Transformer模型在序列建模中的重要性,解决了RNN和CNN在并行计算及长距离依赖方面的局限。通过多头注意力机制和位置编码,Transformer显著提升了语言建模和机器翻译的效果。

深入理解大模型 1:Transformer,大模型的基石

木鸟杂记
木鸟杂记 · 2025-09-10T13:45:26Z
AI 驱动的全球通信语言解决方案的进步

AI驱动的语言工具正在改变跨境沟通,提升多语言互动,促进全球交流。机器翻译技术的进步使实时翻译成为可能,帮助企业和个人克服语言障碍,增强理解与合作。这些工具在医疗、教育和客户服务等领域应用广泛,未来将实现更高的翻译准确性和个性化服务,进一步促进全球互联互通。

AI 驱动的全球通信语言解决方案的进步

实时互动网
实时互动网 · 2025-09-05T07:00:00Z

机器之心数据服务现已上线,提供高效稳定的数据获取服务,帮助用户轻松获取所需数据。

全球机器翻译比赛拿下30个语种第1名,腾讯混元翻译模型开源

机器之心
机器之心 · 2025-09-02T01:54:15Z
最优语料感知训练用于神经机器翻译

本文介绍了最优语料感知训练(OCAT),该方法通过微调预训练模型提升模型准确性。在翻译任务中,OCAT相较于传统训练提高了3.6和1.8的chrF分数,且具有轻量、不易过拟合和强适应性等优点。

最优语料感知训练用于神经机器翻译

Apple Machine Learning Research
Apple Machine Learning Research · 2025-08-15T00:00:00Z
通过像素级回退克服词汇限制

本文提出了一种无词汇编码器,通过将文本转化为像素生成输入嵌入,增强预训练语言模型。实验结果表明,该方法在机器翻译和跨语言迁移方面显著优于基于分词的方法,同时提升了单语模型的多语言能力,并减少了解码延迟。

通过像素级回退克服词汇限制

Apple Machine Learning Research
Apple Machine Learning Research · 2025-07-14T00:00:00Z
Unbabel 推出 TOWER+:多语言 LLM 高保真翻译与指令遵循的统一框架

大语言模型(LLM)推动了机器翻译的发展,但在翻译准确性与指令遵循之间存在挑战。TOWER+模型通过预训练和强化学习实现了翻译与对话能力的平衡,展现出优越的翻译质量和灵活性,适用于多种应用场景。

Unbabel 推出 TOWER+:多语言 LLM 高保真翻译与指令遵循的统一框架

实时互动网
实时互动网 · 2025-06-30T02:23:19Z
超越文本压缩:跨规模评估分词器

分词器设计对语言模型性能影响显著,但评估其质量仍具挑战性。研究表明,分词器在小模型上的评估无法可靠预测其在大模型上的表现。实验发现,分词器选择对英语任务影响较小,但在机器翻译中差异显著。为此,提出了与下游性能更相关的内在指标,并构建了评估框架以实现更可靠的分词器比较。

超越文本压缩:跨规模评估分词器

Apple Machine Learning Research
Apple Machine Learning Research · 2025-06-05T00:00:00Z
变换器模型中的编码器和解码器

本文探讨了变换器模型中的编码器和解码器。完整的变换器模型结合编码器和解码器,适用于序列到序列任务,如机器翻译。编码器处理输入序列并生成上下文表示,解码器则生成输出序列。编码器-仅模型(如BERT)用于理解任务,解码器-仅模型(如GPT-2)用于生成任务。理解这些差异对选择合适的模型至关重要。

变换器模型中的编码器和解码器

MachineLearningMastery.com
MachineLearningMastery.com · 2025-05-24T20:07:11Z

本研究针对传统的检索增强神经机器翻译系统在利用双语语料时存在的局限,探讨了如何通过直接在目标语言中检索相关片段,来有效利用可用的单语目标语料。研究表明,通过改进的跨语言检索系统,采用句子级和词级匹配目标,显著提升了翻译性能,尤其是在目标单语资源远超平行数据的真实场景中。

利用单语数据改善检索增强神经机器翻译

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-30T00:00:00Z

本研究针对多模态机器翻译(MMT)中预训练编码器和解码器的有效性进行了系统分析。研究发现,预训练解码器在翻译质量上显著优于未预训练框架,而预训练编码器的效果则取决于视觉与文本的对齐质量,这为未来多模态翻译系统的架构设计提供了指导。

记忆复兴、持续学习及其更远之处:对预训练编码器和解码器在多模态机器翻译中的评估

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-25T00:00:00Z

本研究提出了华为翻译服务中心的端到端文档图像机器翻译系统,解决了复杂布局问题。通过多任务学习和感知链思维的训练框架,显著提升了OCR和非OCR文档的翻译效果。

DIMT25@ICDAR2025: HW-TSC's End-to-End Document Image Machine Translation System Leveraging Large Vision-Language Model

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-24T00:00:00Z

本研究比较了大型语言模型(LLMs)与传统机器翻译(MT)工具在医疗咨询总结翻译中的表现。结果表明,传统MT工具在复杂文本翻译中更有效,而LLMs在简单总结的越南语和中文翻译中展现出潜力。研究强调医疗翻译需要领域特定的训练和改进评估方法。

比较大型语言模型与传统机器翻译工具在翻译医疗咨询总结中的表现:一项初步研究

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-23T00:00:00Z

本研究提出了FairTranslate数据集,以评估机器翻译中的性别偏见,特别关注非二元性别。通过2418对英法句子,揭示了主流语言模型在性别代表性方面的偏差,强调了确保翻译系统公平与包容性的必要性。

FairTranslate: An English-French Dataset for Evaluating Gender Bias in Machine Translation by Overcoming Gender Binarity

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-22T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码