量子位 ·

首个AI翻译实战榜单出炉！GPT-4o稳坐天花板，Qwen擅长文化丨开源

💡 原文中文，约2800字，阅读约需7分钟。

📝

内容提要

首个AI翻译测评榜单TransBench由阿里国际、上海AI实验室和北语联合发布，评估翻译模型的准确性和文化适应性，GPT-4o表现最佳。TransBench为开源项目，欢迎各翻译机构参与。

🎯

关键要点

首个AI翻译测评榜单TransBench由阿里国际、上海AI实验室和北语联合发布。
TransBench评估翻译模型的准确性和文化适应性，GPT-4o表现最佳。
TransBench增加了幻觉率、文化禁忌词、敬语规范等指标，专门针对大模型翻译的关键问题进行考核。
评测数据和方法来自真实场景的使用反馈，旨在符合大规模应用的标准。
TransBench数据集涵盖多种语言，并持续更新小语种。
评测榜单从综合得分、通用标准、电商文化、文化特性四个维度打分。
在英语翻译中，GPT-4o、DeepL Translate和GPT-4-Turbo排名前三。
在中文翻译中，GPT-4o、DeepSeek-V3和Claude-3.5-Sonnet排名前三。
TransBench重新定义翻译测评标准，关注通用质量、行业垂直标准和跨文化特性标准。
TransBench的测评体系基于阿里国际自研翻译大模型Marco MT的用户反馈。
阿里国际的电商平台广泛应用AI能力，助力业务发展。
TransBench的测评方法已开源，评测结果将持续更新。

❓

延伸问答

TransBench是什么？

TransBench是首个应用型AI翻译测评榜单，由阿里国际、上海AI实验室和北语联合发布，评估翻译模型的准确性和文化适应性。

GPT-4o在翻译测评中表现如何？

GPT-4o在TransBench的评测中表现最佳，稳坐翻译AI的“天花板”。

TransBench评测的主要指标有哪些？

TransBench评测增加了幻觉率、文化禁忌词、敬语规范等指标，专门针对大模型翻译的关键问题进行考核。

哪些翻译模型在英语翻译中排名靠前？

在英语翻译中，排名前三的模型是GPT-4o、DeepL Translate和GPT-4-Turbo。

TransBench的评测方法有什么特点？

TransBench的评测方法基于真实场景的使用反馈，关注通用质量、行业垂直标准和跨文化特性标准。

TransBench是否开源？

是的，TransBench的评测方法和数据集已全面开源，欢迎各翻译机构参与。

🏷️

继续阅读

Mozilla 发布开源 AI 客户端 Thunderbolt，聊天、搜索、调研、自动化，自托管/隐私优先
Mozilla 发布了开源 AI 客户端 Thunderbolt，支持本地部署，强调用户隐私。该客户端提供聊天、搜索、调研和任务自动化功能，能够接入企业内...
Konstrukt 推出的 Omakase Player 是 TAMS 的原生播放器
Konstrukt 公司宣布其开源 Omakase Player 现已支持与 TAMS 框架集成，提供帧级精确的观看体验。TAMS 基于 BBC 研发的“...
在线教程丨Qwen3.6系列首个开源模型Agent编程能力大涨，激活参数仅3B超越Gemma4-31B
Qwen3.6-35B-A3B 模型近日开源，性能优于 Qwen3.5 和 Gemma4 系列，编程基准测试显著提升，新增“思考过程留存”功能，简化开发流...
从 OpenSwiftUI 到 DanceUI：换个方式 Dive SwiftUI - 肘子的 Swift 周报 #132
自2019年发布以来，SwiftUI逐渐成为苹果开发者的重要工具，但其闭源特性使得开发者难以深入理解。为此，社区希望通过开源项目复刻SwiftUI。最近，...
Clerk Chat 更名为 Clerk AI，加倍投入面向企业大规模语音和消息传递的对话式 AI 代理
Clerk AI于2026年4月20日更名，专注于为效果营销构建对话式AI代理。该平台支持智能语音和消息代理的大规模部署，能够进行个性化沟通并与CRM系统...
Talkdesk 利用 AI 驱动的客户体验自动化技术，瞄准本地部署的联络中心
Talkdesk 推出客户体验自动化 (CXA) 产品，旨在将 AI 功能整合到现有联络中心，支持多语言和全渠道客服。CXA 增强人工客服能力，降低运营成...