小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
沉浸式翻译 immersive translate
从混合模型到专门领域的语言模型最佳划分

本文提出了一种独立预训练多个模型的方法,通过优化计算分配,提升语言模型在常识知识和推理任务中的表现。该方法基于扩展法则,适用于不同规模和计算预算的模型。

从混合模型到专门领域的语言模型最佳划分

Apple Machine Learning Research
Apple Machine Learning Research · 2026-03-23T00:00:00Z
基于2.5万临床数据,斯坦福大学发布首个原生3D腹部CT视觉语言模型,Merlin在752类任务中全面领先

CT影像检查在疾病诊断中应用广泛,但放射科医师短缺导致解读效率低。斯坦福大学提出的Merlin模型结合25,494例CT扫描与放射学报告,显著提升了腹部CT分析的效率,推动医学影像智能化发展。

基于2.5万临床数据,斯坦福大学发布首个原生3D腹部CT视觉语言模型,Merlin在752类任务中全面领先

HyperAI超神经
HyperAI超神经 · 2026-03-12T07:26:05Z

近年来,语言模型的获取方式变得几乎免费,成为新兴商品。然而,可靠性、隐私保护和特定领域适应性仍是高端产品的特点,使得“商品”一词在语言模型中存在争议。

语言模型是商品吗?

KDnuggets
KDnuggets · 2026-03-09T14:00:49Z
语言模型将成为支架

在本十年后半期,作者认为语言模型已达到优秀水平,现有模型被低估。尽管扩展仍然重要,但过于关注模型能力导致评估指标失真,缺乏有效的比较工具。

语言模型将成为支架

blank
blank · 2026-02-25T00:00:00Z

华为发布的扩散语言模型DLLM Agent提升了执行速度超过30%,在复杂任务中效率可达传统模型的8倍。研究显示,DLLM在多轮推理和工具调用中展现出更强的规划能力,减少了交互次数,优化了任务执行路径,为Agent设计提供了新视角,强调生成范式对行为方式的影响。

华为发布业界首个扩散语言模型Agent,部分场景提速8倍!

量子位
量子位 · 2026-02-10T07:18:25Z
Persona Vectors:语言模型中角色特征的监控与调控

本文介绍了通过提取大语言模型中的人格特质向量来监控和控制模型行为的方法。该方法在内容审核和安全对齐方面具有重要应用价值,研究展示了如何自动提取人格向量,并在模型推理和微调中进行干预,以防止人格漂移和筛选训练数据。

Persona Vectors:语言模型中角色特征的监控与调控

实时互动网
实时互动网 · 2026-02-03T03:26:36Z
谷歌DeepMind推出ATLAS多语言模型的扩展规律

谷歌DeepMind研究人员推出ATLAS,探讨多语言模型的扩展规律,分析模型规模、训练数据与语言混合的相互作用。基于774次训练,ATLAS明确了跨语言迁移与多语言训练的效率权衡,发现增加语言数量会降低每种语言的性能,但积极的跨语言迁移可部分抵消这一影响。

谷歌DeepMind推出ATLAS多语言模型的扩展规律

InfoQ
InfoQ · 2026-01-29T06:09:00Z
ParaRNN:解锁非线性RNN的大规模语言模型的并行训练

ParaRNN是一个新框架,突破了非线性RNN的序列并行限制。它通过将非线性递归关系转化为方程组,并利用牛顿迭代法并行求解,实现了高达665倍的加速,支持训练7B参数的模型,效果与大型Transformer相当。该框架已开源,推动了高效序列建模的研究。

ParaRNN:解锁非线性RNN的大规模语言模型的并行训练

Apple Machine Learning Research
Apple Machine Learning Research · 2026-01-16T00:00:00Z
数据质量的幻觉:重新思考基于分类器的质量过滤在大规模语言模型预训练中的应用

在混合质量数据集上进行大规模模型预训练时,数据过滤至关重要。分类器质量过滤(CQF)通过训练二分类器来区分预训练数据和高质量数据,保留高分文档。研究表明,CQF能提升下游任务表现,但可能会隐含过滤高质量数据,未必改善语言建模。与合成数据相比,CQF的效果存在显著差异,挑战了其对数据质量有效性的看法。

数据质量的幻觉:重新思考基于分类器的质量过滤在大规模语言模型预训练中的应用

Apple Machine Learning Research
Apple Machine Learning Research · 2026-01-16T00:00:00Z

LLM 的本质LLM => Large Language Model => 大语言

理解并应用生成式(大)语言模型(LLM),提升职场人士工作效能

Peijie's Wiki
Peijie's Wiki · 2026-01-15T00:00:00Z
语言模型微调的温和介绍

本文介绍了语言模型微调的原因、数据集、过程及技术。微调能提升模型在特定领域的理解,适用于指令跟随和对话生成,且通常比预训练更快。文中还提到了一些高级微调技术,如基于人类反馈的强化学习(RLHF)和低秩适应(LoRA)。

语言模型微调的温和介绍

MachineLearningMastery.com
MachineLearningMastery.com · 2026-01-06T23:21:15Z
叙事轨迹:超越画面的评估视频语言模型

本文讨论了视频理解基准的局限性,指出现有基准未能有效区分知识性与图像性问题,从而影响模型的时间推理能力评估。

叙事轨迹:超越画面的评估视频语言模型

Apple Machine Learning Research
Apple Machine Learning Research · 2026-01-06T00:00:00Z
7B扩散语言模型单样例1000+ tokens/s!上交大联合华为推出LoPA

7B扩散语言模型单样例1000+ tokens/s!上交大联合华为推出LoPA

机器之心
机器之心 · 2025-12-31T08:31:48Z
Midscene.js - 一个基于视觉语言模型的跨平台UI自动化框架,使用…

Midscene.js是一个跨平台的UI自动化框架,利用视觉语言模型进行视觉定位和交互。它支持自然语言描述自动化目标,提供JavaScript SDK和YAML脚本,适用于Web、Android和iOS,适合端到端UI测试和操作任务自动化,降低维护成本。

Midscene.js - 一个基于视觉语言模型的跨平台UI自动化框架,使用…

云原生
云原生 · 2025-12-26T10:34:26Z
评估语言模型的困惑度

语言模型的困惑度(perplexity)用于衡量模型对文本的预测能力,表示为样本中标记概率的几何平均数的倒数。困惑度越低,模型对下一个标记的预测越准确。可以使用HellaSwag数据集来评估模型的困惑度,示例代码展示了如何计算每个结尾的困惑度并评估模型的准确性。

评估语言模型的困惑度

MachineLearningMastery.com
MachineLearningMastery.com · 2025-12-23T16:44:35Z

P5是一个统一的推荐系统框架,通过将用户交互、描述和评论等数据转化为自然语言序列,实现个性化推荐。它在预训练阶段学习多种任务,具备良好的零样本泛化能力,有效提升推荐系统性能。

[译][论文] P5 paper | 用语言模型做推荐:一种统一的预训练、个性化提示和预测范式(2022)

ARTHURCHIAO'S BLOG
ARTHURCHIAO'S BLOG · 2025-12-20T00:00:00Z
[译][论文] P5 paper | 用语言模型做推荐:一种统一的预训练、个性化提示和预测范式(2022)

译者序 本文翻译自 2022 年 RecSys 大会的一篇论文 Recommendation as Language Processing (RLP): A Unified Pretrain, Personalized Prompt & Predict Paradigm (P5)。 Figure 1: P5 pretrains on an encoder–decoder...

[译][论文] P5 paper | 用语言模型做推荐:一种统一的预训练、个性化提示和预测范式(2022)

ARTHURCHIAO'S BLOG
ARTHURCHIAO'S BLOG · 2025-12-20T00:00:00Z
经济实惠地托管语言模型

本文介绍如何在Hugging Face上免费部署TinyLlama语言模型,用户可在10分钟内完成。文章分析了模型需求、成本及免费托管选项,适合低流量演示。通过简单步骤,用户可创建并测试聊天机器人,鼓励优化模型。

经济实惠地托管语言模型

KDnuggets
KDnuggets · 2025-12-18T15:08:54Z
Ai2 推出 Molmo 2 开源视频语言模型

Ai2发布了开源视频语言模型Molmo 2,支持多图像和视频输入,允许用户进行端到端研究,强调开源的重要性,适合企业使用,关注数据透明性和责任。

Ai2 推出 Molmo 2 开源视频语言模型

实时互动网
实时互动网 · 2025-12-17T03:38:15Z
变换器的思维方式:驱动语言模型运作的信息流

大型语言模型(LLMs)利用变换器架构将文本转化为数字表示。文本首先被分割为标记,随后每个标记转化为向量并注入位置信息。模型通过多头注意力机制和前馈神经网络逐步学习文本关系,最终预测下一个单词,从而生成连贯的输出。

变换器的思维方式:驱动语言模型运作的信息流

KDnuggets
KDnuggets · 2025-12-15T15:00:43Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码