小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本文探讨了大模型训练中的开源框架,包括Megatron-LM、DeepSpeed和FSDP2。Megatron-LM专注于张量并行,适合超大模型;DeepSpeed通过ZeRO优化显存使用,易于集成;FSDP2提供简洁的API,支持与其他并行策略结合。文章分析了不同框架的优缺点及适用场景,帮助工程师选择合适的训练框架。

【大模型基础设施工程】07:Megatron-LM 与 DeepSpeed

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-22T00:00:00Z
在Windows通过LM Studio使用Zotero MCP

本文介绍如何在Windows上安装和配置Zotero MCP,以便本地使用大语言模型。需要安装Zotero、LM Studio和Python,并启用Zotero本地API。安装Zotero MCP后,需配置LM Studio以支持本地全文检索,最后通过LM Studio加载模型并进行测试。

在Windows通过LM Studio使用Zotero MCP

山月
山月 · 2026-02-02T13:48:53Z

微软成功拦截AI生成的钓鱼攻击,NVIDIA修复高危漏洞,Linux内核曝出HID漏洞,思科修复零日漏洞,毒蛇组织运营恶意广告网络,LNK攻击绕过Windows安全,恶意Rust组件窃取加密货币密钥,PyPI维护者遭钓鱼攻击,GitLab修复DoS漏洞,朝鲜黑客针对加密货币开发者。

FreeBuf早报 | AI对抗AI:微软拦截LLM网络钓鱼攻击;NVIDIA修复Megatron-LM高危漏洞

FreeBuf网络安全行业门户
FreeBuf网络安全行业门户 · 2025-09-26T05:27:04Z

NVIDIA发布安全更新,修复Megatron-LM中的四个高危漏洞,CVSS评分为7.8,可能导致代码执行和数据篡改。受影响版本为0.13.1及以下,建议用户立即更新。

NVIDIA修复Megatron-LM AI框架中的高危代码注入漏洞

FreeBuf网络安全行业门户
FreeBuf网络安全行业门户 · 2025-09-25T16:12:36Z
LM Studio 0.3.17 增加了对工具集成的语言模型(LLMs)支持的模型上下文协议(MCP)

LM Studio发布0.3.17版本,支持模型上下文协议(MCP),允许语言模型访问外部工具和数据源。用户可通过配置文件或一键集成添加MCP服务器,强调安全性并可确认工具调用。MCP服务器可访问Hugging Face API,增强本地模型功能。社区对此项目表现出兴趣,但部分用户报告早期问题。

LM Studio 0.3.17 增加了对工具集成的语言模型(LLMs)支持的模型上下文协议(MCP)

InfoQ
InfoQ · 2025-07-05T13:30:00Z
TiC-LM:一个用于时间连续大型语言模型预训练的网络规模基准

本文探讨了如何评估和更新大型语言模型(LLMs),以解决历史数据过时的问题。我们引入了基于114个Common Crawl数据集的时间连续预训练数据集,并设计了时间分层评估方法。研究表明,自回归元调度结合固定比例的旧数据重放,可以在计算上显著节省,同时保持与从头训练相当的效果。不同领域对新旧数据的平衡需求各不相同。

TiC-LM:一个用于时间连续大型语言模型预训练的网络规模基准

Apple Machine Learning Research
Apple Machine Learning Research · 2025-06-30T00:00:00Z

NVIDIA 宣布其开源语言模型框架 Megatron-LM 存在两个高危漏洞(CVE-2025-23264 和 CVE-2025-23265),CVSS 评分为 7.8,可能导致远程代码执行和数据篡改。漏洞源于 Python 组件处理不当,影响 0.12.0 之前版本,已在 0.12.1 中修复。

NVIDIA Megatron-LM 存在双重注入风险:v0.12.1 版本修复代码执行漏洞

FreeBuf网络安全行业门户
FreeBuf网络安全行业门户 · 2025-06-24T17:53:37Z
如何在本地安装Meta Perception LM 8B?

Perception-LM-8B是Meta FAIR团队开发的多模态模型,具备深度理解图像和视频的能力。它结合了轻量级语言解码器和高效视觉编码器,支持视觉问答和视频推理等任务,使用开放数据训练,确保透明性。该模型在图像和视频理解方面表现优异,适合研究和应用。

如何在本地安装Meta Perception LM 8B?

DEV Community
DEV Community · 2025-05-13T08:35:09Z
LM Studio通过NVIDIA GeForce RTX GPU和CUDA 12.8加速大型语言模型性能

LM Studio 0.3.15更新提升了RTX GPU性能,支持本地运行大型语言模型(LLM)。新增“tool_choice”参数和改进的系统提示编辑器,增强开发者灵活性。该应用适用于文档问答和多轮对话,确保用户快速、私密地进行AI交互。

LM Studio通过NVIDIA GeForce RTX GPU和CUDA 12.8加速大型语言模型性能

NVIDIA Blog
NVIDIA Blog · 2025-05-08T13:00:34Z
Ollama与LM Studio:本地运行大型语言模型的入门指南

本文介绍了两种本地运行大型语言模型(LLMs)的工具:Ollama和LM Studio。Ollama为开源轻量级工具,适合开发者使用命令行界面,便于集成;LM Studio则提供用户友好的图形界面,适合不熟悉命令行的用户,但为闭源软件。两者均免费,用户可根据需求选择。

Ollama与LM Studio:本地运行大型语言模型的入门指南

DEV Community
DEV Community · 2025-03-29T14:30:10Z

本研究解决了可解释药物发现领域的不足,提出了一种新的药物推荐方法KEDRec-LM,该模型通过知识蒸馏利用丰富的医学知识库生成药物推荐及其依据。研究结果表明,利用大型语言模型能够显著提升药物推荐的可解释性及有效性,在实际应用中具有重要影响。

KEDRec-LM:一个知识蒸馏可解释药物推荐的大型语言模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-27T00:00:00Z

深度求索公司推出的deepseek-v3和deepseek-r1大语言模型已达到顶级水平,且免费开源。尽管显卡资源需求较少,但训练成本高,普通用户难以部署全尺寸模型,通常只能使用小型蒸馏版本。LM Studio可在本地运行简化模型,适合学习和知识检索。

使用 LM Studio 在本地部署 Deepseek-R1 的蒸馏版大模型

Nicksxs's Blog
Nicksxs's Blog · 2025-02-23T13:14:34Z
使用LM Studio和Pinggy在您的笔记本电脑上托管大型语言模型

在生成AI时代,LM Studio和Pinggy提供了本地托管大型语言模型(LLM)的简便方案。LM Studio支持本地模型运行,Pinggy确保安全的互联网访问。结合这两者,用户可以高效共享API,保护数据隐私并快速开发原型。主要步骤包括下载LM Studio、启用API和通过Pinggy暴露API,以确保安全和性能优化。

使用LM Studio和Pinggy在您的笔记本电脑上托管大型语言模型

DEV Community
DEV Community · 2025-02-22T15:10:28Z

本研究提出B-cos LMs方法,旨在提高预训练语言模型的可解释性。通过将模型转化为B-cos网络并结合任务微调,B-cos LMs在生成更强解释的同时,保持了与传统微调相当的性能,展现出广泛的应用潜力。

B-cos LM: Efficient Transformation of Pre-trained Language Models for Enhanced Explainability

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-18T00:00:00Z

LM Studio是一个适合非技术用户的本地大模型工具,提供友好的图形界面和零配置操作,支持多平台。用户可以从Hugging Face等平台下载多种模型,确保隐私并支持离线运行。该工具还支持GPU加速,适合本地AI写作和问答服务。

轻松上手本地大模型,LM Studio带你飞

dotNET跨平台
dotNET跨平台 · 2025-02-17T00:01:39Z

本研究提出了LP-LM系统,旨在解决大型语言模型在问答中产生虚构问题的现象。通过Prolog语义解析,确保回答的可靠性。实验结果表明,LP-LM在简单问题上始终提供准确答案,优于传统大型语言模型。

LP-LM: Eliminating Fabrication in Question-Answering Using Logic Programming

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-13T00:00:00Z
这是一个逐步的SEO友好指南,教你如何在本地系统中使用LM Studio中的DeepSeek-V2。

在LM Studio本地运行DeepSeek-V2的步骤包括:确保系统要求,下载并安装LM Studio,获取并加载DeepSeek-V2模型,调整设置,最后与DeepSeek-V2互动。

这是一个逐步的SEO友好指南,教你如何在本地系统中使用LM Studio中的DeepSeek-V2。

DEV Community
DEV Community · 2025-02-03T17:41:50Z

本研究针对当前神经符号推理在通用性、效率和推理能力方面的不足,引入了VERUS-LM框架。该框架通过通用提示机制和知识与查询的清晰分离,支持各种逻辑推理任务,实现了更好的适应性与计算效率,并在复杂推理任务中明显优于现有大型语言模型。此工作为更具多功能性的神经符号人工智能系统迈出了重要的一步。

VERUS-LM:一种结合大型语言模型与符号推理的多功能框架

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-24T00:00:00Z
Jina Reader-LM 将HTML转为Markdown的语言模型

Jina Reader-LM 是一种将 HTML 转换为 Markdown 的语言模型,支持 256k 和 512k 的上下文长度。它通过无头 Chrome 提取网页内容,利用 Readability 和正则表达式清理 HTML,生成结构良好的 Markdown 文件。新版本 V2 提升了输出格式和性能,适合大规模内容转换任务。

Jina Reader-LM 将HTML转为Markdown的语言模型

编译程序
编译程序 · 2025-01-16T14:45:02Z

本研究提出了一种阿拉伯稳定语言模型1.6B,旨在解决阿拉伯语言处理中的参数过多和硬件要求高的问题。该模型在多个基准测试中表现优越,为低资源语言研究提供了更轻量级的选择。

Arabic Stable Language Model: Adapting Stable LM 1.6B to Arabic

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-05T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码