国产开源语音模型VoxCPM 2成功复刻郭德纲的《莽撞人》,展现高保真、多方言和多语种能力,音质达到CD级别,适用于游戏和影视等领域,吸引了众多用户体验。
Mistral AI于2026年2月开源了Voxtral Mini 4B Realtime 2602模型,支持13种语言的实时语音转录,延迟低于500毫秒,适合轻量化应用,并可在边缘计算单元上部署,提升语音识别的精度与效率。
PaddleOCR于2025年推出PaddleOCR-VL-1.5,具备94.5%精度,支持异形框定位,提升文本行和印章识别能力。该模型在复杂场景中表现优异,已开源,用户可通过官网和API使用。新版本优化了推理速度,支持多语种和跨页表格合并,旨在提升文档解析的准确性和效率。
腾讯云推出的AI实时翻译方案,具备毫秒级延迟和多语种支持,提升了用户在直播、电商客服和会议等场景中的交流体验,打破语言障碍。
B站推出AI原声翻译功能,提升海外用户体验,支持多语种视频,完美还原UP主声线,解决翻译中的情感与风格保留问题,未来将扩展更多语言。
PaddleOCR 3.1 更新了多语种文本识别模型,支持37种语言,识别精度提升30%。新增文档翻译工具PP-DocTranslation,支持Markdown、PDF和图片格式翻译,并支持MCP服务器,便于将OCR能力集成到AI应用中。
本研究解决了视觉语言模型(VLM)在处理多语种输入时生成英语回复的限制问题,提出了一种连续的多语种融合策略,在视觉指令调优过程中注入文本多语种数据,从而保留语言模型的多语种能力。研究结果表明,该方法在不影响视觉性能的前提下显著提升了多语言的语言保真度,提供了一个有效的解决方案以推动全球VLM的应用。
本研究提出了一种新方法——多因素平衡ICL(BMF-ICL),旨在解决多语种大型语言模型在上下文学习中因示例选择导致的有效性差异。实验结果表明,BMF-ICL在多个模型上优于现有方法,强调了整合多因素的重要性。
本文介绍了博利项目,旨在解决印度语言中口吃语音数据稀缺的问题,构建了多语种口吃语音数据集,包含匿名元数据、问卷回应及朗读、自发言语记录,并详细注释五种口吃类型,为相关研究和技术发展提供了重要资源。
本研究提出了MultiLingPoT多语言程序推理方法,解决了现有程序思维方法仅关注单一编程语言的问题。该方法通过多语言数据微调,提升了数学推理能力,混合使用时性能提高6%。
四川中行与科大讯飞合作推出多语种AI透明屏,提升境外游客支付便利性,支持实时翻译,优化金融服务体验。
本研究探讨了多语种自然语言处理中的英语角色,指出其在任务性能与语言理解之间存在目标不一致,建议应重视增强语言理解,而非单纯依赖英语提升任务性能。
本文提出了一种基于并行语料库和合成数据增强的策略,旨在提升印度36种语言的机器翻译质量,促进多语种交流。
本研究探讨了多语种检索增强语言模型在处理多样语言时的挑战,提出了《Futurepedia》基准测试,评估六个多语种RALMs,揭示语言资源不均等问题并提出改进建议。
本研究比较了ByT5和mT5在51种语言的多语种语义分析中的表现,结果表明最新的标签投影方法显著提升了机器翻译的精确度,ByT5在跨语言转移方面优于mT5。
本研究提出了多语种大型语言模型(MLLMs)的开发与部署框架,分析了Llama2案例,并提出优化策略,强调支持语言多样性的重要性。
本研究提出了Multi-IF基准,解决现有基准无法全面反映多轮多语种交互复杂性的问题。通过结合大型语言模型和人类注释,评估模型在多轮多语种指令执行中的能力。研究发现,最新的语言模型在多轮指令执行中失败率增加,尤其在非拉丁文字语言中,显示出多语种能力的局限性。
研究探讨大型语言模型在非英语语言中的信心估计。通过多语种信心估计方法(MlingConf),分析语言无关和语言特定任务的表现。结果显示,英语在语言无关任务中表现优越,而使用相关语言提示可提升语言特定任务的信心估计,提高模型可靠性和准确性。
研究分析了分词对多语种语言模型形态知识的影响,比较了mT5和ByT5在不同语言上的形态学理解。结果表明,中晚层编码的形态信息显著影响模型表现,尤其在处理不规则语言时,增加预训练数据能提升效果。
本研究提出DEPT框架,通过将嵌入层与变换器主体解耦,解决多语种和领域数据异质性对语言模型预训练的影响。DEPT能在多种上下文中训练,提高模型泛化能力,减少嵌入参数,实现无词汇依赖的联邦多语言预训练,验证了其有效性。
完成下面两步后,将自动完成登录并继续当前操作。