小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本文介绍了 exttt{Open-RAG}模型,通过稀疏专家混合(MoE)提升开源大型语言模型的推理能力,优化复杂查询的处理。该模型结合结构学习和动态选择专家,平衡性能与速度,生成更准确的响应。

Open-RAG:将开源LLM模型集成为高效RAG模型 | ENMLP'24 - 晓飞的算法工程笔记

晓飞的算法工程笔记
晓飞的算法工程笔记 · 2024-11-21T01:31:00Z

本文介绍了一种新型神经网络架构ModuleFormer,基于稀疏专家混合(SMoE),旨在提高大型预训练语言模型的效率和专业化能力。通过自适应计算模块(ACM)降低计算成本,并提出混合注意力头(MoA)结构,提升自然语言处理任务性能。此外,研究了多路径结构对Transformer模型的影响,提出模块到模块的知识迁移方法(m2mKD),并在多语言机器翻译中应用语言特定矩阵合成(LMS)方法,取得显著改进。

模块混合:将 Transformer 重新定义为动态组件

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-09T00:00:00Z

本文介绍了针对大型语言模型(LLMs)的新算法和技术,包括Branch-Train-Merge(BTM)算法、Mixture of Tokens模型和稀疏专家混合(SMoE)模型。这些方法显著提高了训练效率和模型性能,尤其在多语言翻译和推理速度方面表现突出。同时,研究分析了混合专家模型的路由机制,并提出了改进策略,以促进未来的发展。

分支训练 MiX:将专家 LLMs 混合到一个专家混合 LLM 中

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-03-12T00:00:00Z

该研究基于稀疏专家混合(SMoE)语言模型的 Mixtral,提出了 Chinese-Mixtral 和 Chinese-Mixtral-Instruct,通过预训练和微调改进了中文语言能力,保留了英语能力。研究讨论了语言适应的关键问题,并提供了实证结果和分析。研究资源在 https://github.com/ymcui/Chinese-Mixtral 公开提供。

重新思考 LLM 语言适应:以中文 Mixtral 为案例研究

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-03-04T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码