小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

自变量机器人CEO王潜认为,具身智能是独立于语言和多模态模型的基础模型,专注于物理世界的复杂性与随机性。现有模型难以准确描述物理现象,因此需要重构基础模型以应对这些挑战。具身智能的发展将改变模型架构和数据处理方式,未来可能超越现有多模态模型。

自变量王潜:具身智能是物理世界的独立基础模型|MEET2026

量子位
量子位 · 2025-12-21T11:11:12Z
构建Llama或GPT模型进行下一个标记预测

自然语言生成(NLG)面临挑战,现代解码器模型如Llama和GPT在大量文本数据上训练有效。本文介绍了如何构建Llama或GPT模型进行下一个标记预测,包括模型架构、预训练和变体。Llama模型采用分组查询注意力和旋转位置嵌入,使用SwiGLU激活函数,形成简单高效的语言模型。

构建Llama或GPT模型进行下一个标记预测

MachineLearningMastery.com
MachineLearningMastery.com · 2025-12-08T18:04:12Z

MiniMax M1技术闭门会讨论了模型架构创新、强化学习训练及长上下文应用等前沿话题。与会者认为,强化学习可以在有限上下文下提升模型能力并改变输出分布。长上下文模型在法律合规分析和客户研究等企业应用中展现出巨大潜力。混合架构被视为未来主流,能提高推理效率和模型能力。

MiniMax M1全球技术闭门会实录:RL、混合架构、长上下文的下一步

量子位
量子位 · 2025-07-22T04:44:18Z

PnPXAI框架解决了现有可解释人工智能(XAI)在不同神经网络和数据模式下的局限性。该框架能够自动检测模型架构、推荐解释方法并优化超参数,从而提升了解释的灵活性和有效性,适用于医疗和金融等多个领域。

PnPXAI: A Universal Explainable AI Framework for Providing Automatic Explanations Across Diverse Modalities and Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-15T00:00:00Z

本研究提出了一种新方法,通过考虑模型架构约束设计推理任务,并开发了开源库“enigme”,用于生成文本谜题,以提升生成性人工智能模型的推理能力。

Enigme: Generative Text Puzzles for Evaluating Language Model Reasoning Abilities

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-08T00:00:00Z

本研究提出了第一个针对基因组基础模型(GFM)的统一对抗攻击基准GERM,填补了评估GFM脆弱性的空白。研究表明,基于变换器的模型在对抗扰动下表现出更强的鲁棒性,强调了模型架构对脆弱性的影响。

通过异常值移除实现快速低成本的基因组基础模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-01T00:00:00Z
从零开始编写自己的Llama 4大型语言模型

大型语言模型(LLMs)是现代人工智能的前沿,Meta最新发布的Llama 4在架构和功能上有显著进展。freeCodeCamp.org的课程将教你如何从零开始实现Llama 4,内容涵盖模型架构、令牌、注意机制和旋转位置嵌入,适合机器学习爱好者和开发者。

从零开始编写自己的Llama 4大型语言模型

freeCodeCamp.org
freeCodeCamp.org · 2025-04-24T19:57:28Z

本研究探讨了大型语言模型在需求分类中的应用,分析了Bloom、Gemma和Llama模型的实验,发现提示设计和模型架构显著影响性能,而数据集的变化在不同任务中具有特殊影响。这为未来模型的开发与优化提供了参考。

生成大型语言模型在需求分类中的有效性研究

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-23T00:00:00Z

本文探讨了现代硬件下的模型架构设计,强调机器学习与系统的结合。随着计算能力和算法的进步,AI模型的性能不断提升。文章介绍了硬件感知算法的设计,特别是状态空间模型与注意力机制的结合,以优化内存使用和计算方式,从而显著提升推理表现,展示了新架构在视频生成等应用中的潜力。

现代硬件下的模型架构设计:Tri Dao

Josherich的博客
Josherich的博客 · 2025-04-21T00:00:01Z

本研究探讨了机器学习在乳腺X光照片中的应用,提出了更有效的模型架构和转移学习策略,显著提升了单视图和双视图的分类检测效果,为乳腺X光分析提供了重要见解。

Optimizing Mammogram Breast Cancer Detection: A Comprehensive Study on Transfer Learning, Resolution Reduction, and Multi-View Classification

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-25T00:00:00Z

本研究探讨了自动化人脸识别系统在身份验证和面部属性分析中的准确性与差异性之间的权衡,强调模型架构、损失函数和数据集的影响,并建议开发者关注数据集偏见。

Exploring the Trade-off Between Variability and Accuracy in Face Recognition Systems: The Role of Datasets, Architectures, and Loss Functions

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-18T00:00:00Z
上海AI Lab最新推出Mixture-of-Memories:线性注意力也有稀疏记忆了

AIxiv专栏促进了学术交流,报道了2000多篇文章。文章探讨了未来模型架构需具备强大记忆扩展能力和低复杂度,提出了MoM(Mixture-of-Memories)方法,通过稀疏激活和共享记忆提升性能,尤其在长序列建模任务中表现突出。

上海AI Lab最新推出Mixture-of-Memories:线性注意力也有稀疏记忆了

机器之心
机器之心 · 2025-03-05T06:51:58Z

本研究探讨大型语言模型(LLMs)在生成随机数时的表现差异,分析了模型架构、数值范围、温度和提示语言的影响。结果表明,尽管模型基于随机机制,但在输出随机数字时常表现出确定性,反映了训练数据和人类认知偏见对结果的影响。

确定性还是概率性?大型语言模型作为随机数生成器的心理学

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-27T00:00:00Z
研究:中型AI模型在适当提示下可与大型模型媲美的多语言翻译

这项研究探讨了中型AI模型在多语言翻译中的表现,发现在适当提示下,其效果可与大型模型相媲美。研究评估了多语言翻译能力、模型架构及翻译质量与计算成本之间的权衡。

研究:中型AI模型在适当提示下可与大型模型媲美的多语言翻译

DEV Community
DEV Community · 2025-02-09T06:53:01Z

本研究提出了EMMA基准,用于评估多模态大语言模型在数学、物理、化学和编程等领域的推理能力。结果表明,现有模型在复杂的多模态推理任务中存在显著局限,强调了改进模型架构和训练方法的必要性。

Can Multimodal Large Language Models Reason? EMMA: Enhanced Multimodal Reasoning Benchmark

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-09T00:00:00Z

本研究探讨了视觉自回归(VAR)模型的表现能力及其容量限制,提出新的电路复杂性界限,表明VAR模型可被均匀的$ ext{TC}^0$阈值电路模拟,强调其表现力的局限性,为未来模型架构开发提供指导。

Circuit Complexity Bounds of Visual Autoregressive Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-08T00:00:00Z
新型混合语言模型结合了GPT和BERT的优势以提升性能

该研究提出了一种新型混合语言模型,结合了GPT和BERT的优势,展示了其在多种语言任务上的优越性能。

新型混合语言模型结合了GPT和BERT的优势以提升性能

DEV Community
DEV Community · 2025-01-01T06:55:00Z

大规模语言模型(LLM)的微调是提升其在特定领域表现的重要过程。微调需关注数据质量、模型架构和计算资源的平衡。高质量数据、合适的学习率和批量大小是关键。持续评估和迭代可确保模型适应数据变化,同时需关注模型的公平性,避免偏见。这些策略能显著提升微调模型的性能和可靠性。

大规模语言模型微调的五大技巧

KDnuggets
KDnuggets · 2024-12-06T20:16:50Z

大型语言模型(LLMs)在自然语言理解和科学发现中发挥着重要作用。本文探讨了生物化学领域的科学LLMs,分析了模型架构、能力、数据集及评估,审视了当前面临的挑战,并指出未来的研究方向。

基于大型语言模型的自主液滴微流控设计框架

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-11T00:00:00Z

本研究分析了传统模型架构在上下文学习任务中的效率与准确性,比较了GPT-2、LLaMa和Mamba等模型的混合架构,发现某些调整会导致性能下降,而某些混合模型则显著提升性能,并提出了“ICL回归分数”来量化模型表现。

定制模型能在上下文中学习吗?混合架构在上下文学习任务中的性能探索

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-06T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码