小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本研究解决了大语言模型在持续学习过程中面临的灾难性遗忘问题。通过应用弹性权重巩固(EWC),我们探索了其对模型的新任务学习的积极影响,研究结果表明,该方法显著减轻了遗忘效应,并可能有助于提升语言理解能力。

用于Gemma2全参数持续预训练的弹性权重巩固

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-09T00:00:00Z
在大词汇量语言模型中减少损失

随着语言模型词汇量的增加,交叉熵的内存占用显著上升。我们提出了Cut Cross-Entropy(CCE)方法,仅计算正确标记的logit,从而显著降低内存消耗。以Gemma 2模型为例,CCE将损失计算的内存从24GB降至1MB,训练时间内存从28GB降至1GB,且不影响训练速度和收敛性。

在大词汇量语言模型中减少损失

Apple Machine Learning Research
Apple Machine Learning Research · 2025-02-07T00:00:00Z

本研究提出了一种结合检测与缓解技术的方法,针对大型语言模型中的幻觉问题。通过检索增强生成框架和负缺失信息评分系统,提高了评估准确性,Gemma2和GPT-4表现优异,为医疗等领域的应用提供了新思路。

通过RAG和NMISS解决意大利医疗大语言模型聊天机器人中的幻觉问题

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-05T00:00:00Z

Gemma2 2B IT是一款小型模型,适合完成简单任务,速度快。它在写作和角色扮演方面表现良好,能回答简单的数学和推理问题。安装简单。

Gemma2 2B IT 是最令人印象深刻的小模型

极道
极道 · 2024-08-02T22:52:00Z

谷歌新模型Gemini 1.5 Pro(0801)在lmsys竞技场中击败了GPT-4o,成为第一。Gemini 1.5 Pro(0801)在视觉排行榜和多语言能力基准测试中表现出色,但在编码和Hard Prompt Arena中表现不佳。谷歌发布了20亿参数模型Gemma 2(2B),在竞技场排行榜上超越了GPT-3.5模型。竞技场榜单的权威性受到质疑。

起猛了,GPT-4o被谷歌新模型击败,ChatGPT官号:大家深吸一口气

量子位
量子位 · 2024-08-02T06:18:50Z

ShieldGemma是基于Gemma2构建的安全内容审查模型套件,可预测关键伤害类型的安全风险。通过评估证明其卓越性能,并提出了基于LLM的数据筛选管道。发布ShieldGemma推动LLM安全性发展并提供更有效的内容审查解决方案。

ShieldGemma: 基于 Gemma 的生成性人工智能内容审查

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-31T00:00:00Z
玩转 Gemma 2,模型的部署与 Fine-Tuning

Google发布了开放模型Gemma 2,提供9B和27B两种参数规模的选择,支持8192 tokens的上下文长度。用户可以在Hugging Face和Kaggle上免费获取模型权重,并通过多种主流框架进行模型部署。Gemma 2还支持模型的fine-tuning,与主流训练框架完全兼容。Google Cloud提供高级解决方案,帮助用户大规模、自动化地训练开放模型。

玩转 Gemma 2,模型的部署与 Fine-Tuning

实时互动网
实时互动网 · 2024-07-25T02:22:14Z
谷歌开源27B参数的Gemma 2语言模型

Google DeepMind开源了Gemma 2,这是他们家族中下一代的小型语言模型。Gemma 2在Gemma架构上进行了多项改进,并使用知识蒸馏使模型达到了最先进的性能。Gemma 2在性能上超过了其他相同规模的模型,并与规模大两倍的模型竞争。Gemma 2通过引入Google旗舰模型Gemini的思想,包括分组查询注意力机制和全局注意力与局部滑动窗口注意力的混合,改进了第一代Gemma架构。Google训练了三种规模的Gemma 2模型:分别使用了20亿、90亿和270亿个参数。在LLM基准测试中,27B参数的Gemma 2模型超过了基准Qwen1.5 32B模型,并且与规模更大的70B参数Llama 3模型相差不大。Gemma 2的发布延续了小型开放语言模型家族的行业趋势,如微软的Phi和Meta的Llama。这些模型通过引入GQA等架构改进和高质量的训练数据,实现了比小型模型预期更好的性能。Google还将27B和9B模型的指令调整版本提交到了Chatbot Arena,在那里模型通过人类评委进行“盲目对比评估”。Gemma 2 27B目前是最高排名的开放模型,超过了Llama 3 70B。9B版本也表现不错,Google表示“在相同参数范围内明显优于其他模型”。用户可以通过Google的AI Studio或Google Cloud Platform的Vertex AI在Web上访问Gemma 2模型。9B和27B的Gemma 2模型可以从Huggingface和Kaggle下载。

谷歌开源27B参数的Gemma 2语言模型

InfoQ
InfoQ · 2024-07-16T13:00:00Z

Google发布了升级版的gemma聊天机器人,gemma2。Gemma 7B在各种基于文本的任务中表现出色,并在大多数任务中优于llama2 7B/13B和Mistral 7B。Gemma模型的架构基于Transformer解码器,包括多头/多查询注意力、RoPE、GeGLU和RMSNorm等特性。Gemma 7B是在一个包含6万亿个标记的大型数据集上训练的。Google使用了监督微调和强化学习与人类反馈相结合的方法来优化gemma模型。

一文速览Gemma及其微调(第5.2版):通过我司七月的早期paper-7方面review数据集微调Gemma2

结构之法 算法之道
结构之法 算法之道 · 2024-06-29T03:58:11Z

Google发布了Gemma 2,一系列轻量级的开放模型,用于AI任务。Gemma 2比第一代性能更高效,具有安全性改进。它提供了与较大模型竞争的替代方案,并降低了部署成本。Gemma 2经过优化,可在各种硬件上运行,并与主要的AI框架兼容。它以商业友好的许可证提供,并可以轻松部署和管理在Google Cloud上。Google致力于负责任的AI开发,并为开发人员提供资源。Gemma 2现已可供测试和研究。

Gemma 2现已向研究人员和开发者开放

The Keyword
The Keyword · 2024-06-27T15:00:00Z
Gemma,遇见NIM:NVIDIA与Google DeepMind合作推动大型语言模型创新

NVIDIA和Google在Google I/O '24上宣布了三个新的合作项目,旨在帮助开发者更轻松地创建AI应用。合作包括优化三个新模型Gemma 2、PaliGemma和RecurrentGemma的性能和效率。他们还宣布,开源GPU dataframe库RAPIDS cuDF现在支持Google Colab,使开发者能够加速数据分析。此外,他们还宣布了关于Firebase Genkit的合作,使应用开发者能够将生成式AI模型集成到他们的Web和移动应用中。NVIDIA和Google Cloud的合作旨在推动AI在多个领域的发展。

Gemma,遇见NIM:NVIDIA与Google DeepMind合作推动大型语言模型创新

NVIDIA Blog
NVIDIA Blog · 2024-05-14T19:40:49Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码