小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
沉浸式翻译 immersive translate
Dify.AI

Meta新模型要来了,但Llama 4的锅谁来接?1300多位作者的联合报告来了

机器之心
机器之心 · 2026-01-22T08:53:00Z
即将离职的Meta首席AI科学家承认该公司在发布Llama 4时篡改测试结果以获得最佳成绩

Meta首席AI科学家Yann LeCun承认,该公司在发布Llama 4时篡改基准测试结果,导致模型表现不佳,引发扎克伯格不满,整个GenAI团队被边缘化。

即将离职的Meta首席AI科学家承认该公司在发布Llama 4时篡改测试结果以获得最佳成绩

蓝点网
蓝点网 · 2026-01-03T03:45:02Z

在我们的实测中,宝可梦数据集的训练损失函数(Loss)呈现了下降的曲线,从初始的4.6迅速下降并收敛至2.5以下,可以展示利用LLaMA-Factory微调的训练效果,证明了训练后模型在特定领域数据上的高效适配能力。为了让大家直观体验这一流程,我们准备了一个有趣的实战:复刻经典的宝可梦(Pokémon)角色识别与描述任务,手把手带大家体验从环境安装、数据构造、LoRA...

开源生态再扩容!LLaMA-Factory正式支持ERNIE-4.5全系列,实战单卡微调宝可梦图鉴

百度大脑
百度大脑 · 2025-12-29T11:55:56Z
在本地GPU上预训练Llama模型

本文介绍了如何在本地GPU上预训练Llama模型,包括训练特定标记的分词器、准备训练数据和执行预训练。使用HuggingFaceFW/fineweb数据集,创建一个12层的Llama模型,并设置训练参数以实现模型训练。

在本地GPU上预训练Llama模型

MachineLearningMastery.com
MachineLearningMastery.com · 2025-12-22T04:27:38Z
如何在自己的数据集上微调本地Mistral或Llama 3模型

本文介绍了如何使用Unsloth和QLoRA微调开源大语言模型,以提升客户支持效率。内容包括数据集准备、训练、测试和比较。通过微调,模型在特定领域的响应速度和一致性显著提高。教程涵盖Colab环境设置、数据集准备、模型训练及性能评估等步骤。

如何在自己的数据集上微调本地Mistral或Llama 3模型

MachineLearningMastery.com
MachineLearningMastery.com · 2025-12-19T09:00:17Z
构建Llama或GPT模型进行下一个标记预测

自然语言生成(NLG)面临挑战,现代解码器模型如Llama和GPT在大量文本数据上训练有效。本文介绍了如何构建Llama或GPT模型进行下一个标记预测,包括模型架构、预训练和变体。Llama模型采用分组查询注意力和旋转位置嵌入,使用SwiGLU激活函数,形成简单高效的语言模型。

构建Llama或GPT模型进行下一个标记预测

MachineLearningMastery.com
MachineLearningMastery.com · 2025-12-08T18:04:12Z
为Llama模型训练分词器

Llama模型是Meta发布的一个大型语言模型,采用字节对编码(BPE)进行文本分词,帮助模型理解词义关系。文章介绍了如何使用Hugging Face、SentencePiece和tiktoken库训练BPE分词器,并提供了代码示例。

为Llama模型训练分词器

MachineLearningMastery.com
MachineLearningMastery.com · 2025-12-05T17:48:42Z
独家揭秘Meta AI大裁员:Llama 4落后DeepSeek的恐慌

Meta AI部门裁员约600人,基础研究受损。新主管亚历山大·王重组团队,聚焦TBD Lab,因Llama 4表现不佳,扎克伯格感受到竞争压力,急于调整战略。

独家揭秘Meta AI大裁员:Llama 4落后DeepSeek的恐慌

TechWeb 全站精华
TechWeb 全站精华 · 2025-10-27T02:13:17Z

田渊栋在Meta裁员后迅速找到新工作,裁员涉及约600人,因Llama 4表现不佳。Meta裁员旨在提升团队效率,部分员工获得遣散费。田渊栋受到多个AI公司的青睐,显示他机会众多。

田渊栋被裁后新offer排到法国!原来Llama 4.5训完后被卸磨杀驴了

量子位
量子位 · 2025-10-24T01:21:49Z

本文记录了微调Qwen3模型的过程,包括环境搭建、数据准备、模型训练和测试。通过curl命令验证了微调效果,显示工具链日益成熟,操作简便。

使用 LLaMA-Factory 微调 Qwen3 模型

陈少文的博客
陈少文的博客 · 2025-09-21T00:00:00Z
Llama.cpp 和 GGUF 中的多模态嵌入

jina-embeddings-v4推出了先进的多模态嵌入,支持文本、图像和复杂文档的向量搜索。通过修改llama.cpp,实现了多模态嵌入的生成,解决了图像处理和注意力机制的问题。调试后,llama.cpp模型的嵌入结果与参考模型相近,未来可优化视觉编码器和支持多向量嵌入。

Llama.cpp 和 GGUF 中的多模态嵌入

Jina AI
Jina AI · 2025-09-09T23:33:16Z
疯狂抢人 vs 闪电离职:Meta AI团队为何刚组建就内乱不断?两个月上演的收购神话与破灭 — Meta AI 战略、AI 模型、Scale AI、扎克伯格、Llama

Meta在AI领域的并购整合面临挑战,ScaleAI高管频繁离职,数据质量问题突出,竞争对手产品广泛应用。尽管进行高调并购,内部管理混乱,未来成功概率低,可能导致局面混乱。

疯狂抢人 vs 闪电离职:Meta AI团队为何刚组建就内乱不断?两个月上演的收购神话与破灭 — Meta AI 战略、AI 模型、Scale AI、扎克伯格、Llama

硕鼠的博客站
硕鼠的博客站 · 2025-09-03T00:46:30Z
如何在单台服务器上使用Llama-Swap本地运行多个大型语言模型

Llama-Swap是一个轻量级开源代理服务器,允许用户在本地轻松切换多个大型语言模型(LLM)。它通过监听API请求,自动管理模型服务器,简化了模型管理。用户只需配置YAML文件,即可在一台机器上运行多个模型,提高资源利用率和灵活性。

如何在单台服务器上使用Llama-Swap本地运行多个大型语言模型

KDnuggets
KDnuggets · 2025-08-27T12:00:18Z

This post is divided into five parts; they are: • From a Full Transformer to a Decoder-Only Model • Building a Decoder-Only Model • Data Preparation for Self-Supervised Learning • Training the...

Building a Decoder-Only Transformer Model Like Llama-2 and Llama-3

MachineLearningMastery.com
MachineLearningMastery.com · 2025-08-04T16:02:37Z
NVIDIA AI 开发团队发布 Llama Nemotron Super v1.5:为推理和代理 AI 树立新标准

NVIDIA 最新发布的 Llama Nemotron Super v1.5 在推理和效率上取得显著进展,特别适合复杂的科学和编码任务。该模型通过高信号数据集优化和神经架构搜索,提升了吞吐量和准确性,适合个人开发者和企业应用,促进了社区反馈和定制,标志着 AI 推理模型的新纪元。

NVIDIA AI 开发团队发布 Llama Nemotron Super v1.5:为推理和代理 AI 树立新标准

实时互动网
实时互动网 · 2025-07-29T02:51:21Z

多个高危漏洞被曝光,包括IP摄像头后门、Meta防火墙绕过和技嘉固件漏洞,影响范围广泛。建议用户及时更新和加强安全防护。

FreeBuf早报 | 热门IP摄像头存在隐蔽后门;利用提示注入漏洞绕过Meta的Llama防火墙防护

FreeBuf网络安全行业门户
FreeBuf网络安全行业门户 · 2025-07-14T06:01:58Z

Trendyol安全团队发现Meta的Llama防火墙在提示注入攻击中失效,暴露大语言模型的安全隐患。测试显示其依赖英语关键词,无法识别语言变体,导致恶意指令绕过。CODE_SHIELD模块未能标记不安全代码,增加生产风险。研究呼吁在LLM集成前进行严格测试,以防数据泄露和系统入侵。

研究人员利用提示注入漏洞绕过Meta的Llama防火墙防护

FreeBuf网络安全行业门户
FreeBuf网络安全行业门户 · 2025-07-12T09:37:54Z

Meta已停止使用Llama,转而采用Claude Sonnet进行代码开发。Llama 4自发布以来评价不佳,扎克伯格成立新团队研发下一代模型。尽管Llama-4.1和4.2在开发中,但公司文化问题被批评为项目成功的障碍。Claude的代码能力受到认可,Anthropic收入显著增长。

Llama惨遭抛弃!Meta内部改用Claude写代码

量子位
量子位 · 2025-07-11T01:26:42Z

首创Mid-training范式破解RL奥秘,Llama终于追平Qwen!

机器之心
机器之心 · 2025-06-30T10:08:45Z
使用 llama.cpp 构建 AI 代理

本文介绍了如何在本地设置和运行 llama.cpp 服务器,构建并测试 AI 代理。教程包括安装、配置和编译 llama.cpp,集成 Langchain,以及创建支持网络搜索和 Python REPL 的 ReAct 代理。尽管设置过程复杂,但其高效性和灵活性使本地 AI 成为可能。

使用 llama.cpp 构建 AI 代理

KDnuggets
KDnuggets · 2025-06-24T12:00:55Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码