小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本研究提出CULL-MT方法,通过结构层剪枝和选择语言方向,解决多语言机器翻译模型推理开销增加的问题。该方法采用贪婪策略识别不重要层,并通过知识蒸馏和参数微调减轻影响。研究表明,NLLB-3.3B模型在多方向翻译中表现鲁棒,而LLaMA3.1-8B-Instruct对层剪枝更敏感。

CULL-MT: A Compression Method for Machine Translation Based on Language and Layer Pruning

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-10T00:00:00Z

本文探讨了大型语言模型(LLMs)在多语言机器翻译中的能力,尤其是在低资源语言的表现。研究表明,参考信息能显著提高翻译评估的准确性,而源语言信息有时会产生负面影响。此外,提出了基于GPT的翻译质量评估指标GEMBA,显示出在多语言评估中的优越性能,为提升LLMs在翻译任务中的应用提供了新思路。

面向大型语言模型驱动的无参考翻译评估方法:英语和印度语言

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-03T00:00:00Z

本文探讨了 Transformer 网络在算法任务中的应用,提出了一种概率框架以优化多语言机器翻译性能,解决了梯度消失问题。研究表明,深层模型在语言建模中表现更佳,并分析了多头注意力层的记忆能力及其对目标函数的影响。此外,研究揭示了 Transformer 的关键参数对表达能力的作用,并提出了有效的模型调整方法。

变换器在不同深度下能学到什么?对序列学习任务的案例研究

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-02T00:00:00Z

本文研究了深度随机初始化的Transformer模型中的信号传播与梯度反向传播,提出了确保可训练性的初始化超参数必要条件。通过理论分析和实验,提出了优化模型性能的建议,解决了深度模型训练不稳定性的问题,并在多语言机器翻译任务中取得了更好的性能。

Transformer 稳定了:一种端到端的信号传播理论用于语言模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-03-14T00:00:00Z

本文研究了自监督学习方法在多语言机器翻译中的应用。通过结合噪声消除的自监督任务和原有任务,性能在8种和15种语言基准测试中分别提高了11.3%和3.7%。

通过从资源丰富的语言进行自我蒸馏以增强大型语言模型的多语种能力

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-02-19T00:00:00Z

多语言机器翻译质量低,英文内容通过机器翻译转译成较低资源语言。研究对训练多语言大型语言模型提出疑虑。

网络中机器翻译的惊人数量:多样并行的洞察

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-01-11T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码