小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
Transformers v5引入了更模块化和互操作的核心

Hugging Face发布了Transformers v5的首个候选版本,强调互操作性和简化,采用模块化架构,主要支持PyTorch。新增的“transformers serve”组件便于模型部署,量化成为重要概念,旨在巩固Transformers作为开放AI开发的基础设施。

Transformers v5引入了更模块化和互操作的核心

InfoQ
InfoQ · 2025-12-16T16:45:00Z
何恺明重磅新作:Just image Transformers让去噪模型回归基本功

抱歉,您提供的文本内容过于简短,无法进行有效总结。请提供更详细的文章内容。

何恺明重磅新作:Just image Transformers让去噪模型回归基本功

机器之心
机器之心 · 2025-11-19T02:49:41Z
优化Hugging Face Transformer管道的5个技巧

Hugging Face提供了五个优化Transformers Pipelines的技巧:1. 批量推理以提高GPU利用率;2. 使用低精度和量化减少内存;3. 选择高效模型架构加快推理;4. 利用缓存重用计算结果;5. 通过Optimum降低延迟。这些方法能显著提升AI应用性能。

优化Hugging Face Transformer管道的5个技巧

KDnuggets
KDnuggets · 2025-09-12T12:00:58Z
使用Hugging Face Transformers微调和部署GPT模型

Hugging Face的Transformers框架广泛用于机器学习模型的微调,以提高特定任务的准确性和效率。通过预训练模型的微调,可以节省时间和资源。本文介绍了如何微调GPT模型以解决数学问题,并展示了如何在FastAPI中部署该模型。

使用Hugging Face Transformers微调和部署GPT模型

The JetBrains Blog
The JetBrains Blog · 2025-08-25T11:01:26Z
关注并不是我们所需的一切;我们还需要拥有权

Ryan邀请了Illia Polosukhin,'Attention Is All You Need'论文的共同作者及NEAR的联合创始人,讨论Transformers模型的发展及其影响,强调去中心化和用户拥有的AI在区块链上的重要性。

关注并不是我们所需的一切;我们还需要拥有权

Stack Overflow Blog
Stack Overflow Blog · 2025-07-08T07:40:00Z

机器之心数据服务已上线,提供高效稳定的数据获取,简化数据爬取流程。

人民大学&字节Seed:利用μP实现Diffusion Transformers高效扩展

机器之心
机器之心 · 2025-06-26T06:22:12Z
使用Ollama、vLLM或Transformers本地安装DeepSeek-R1-0528的逐步指南

升级版DeepSeek-R1-0528在开源AI领域取得显著进展,超越多款知名闭源模型。其智能算法和大规模计算提升了数学、编程和逻辑推理能力,准确率从70%提高至87.5%。提供三种简单的本地安装方法,满足不同用户需求。

使用Ollama、vLLM或Transformers本地安装DeepSeek-R1-0528的逐步指南

DEV Community
DEV Community · 2025-05-29T20:28:00Z

本研究提出了一种有效的超参数调优方法μP,应用于扩散变换器,显著提升了模型的收敛速度和扩展性,尤其在文本到图像生成任务中表现突出,同时降低了调优成本。

Efficiently Scaling Diffusion Transformers with μP

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-21T00:00:00Z

本研究提出了一种SUS反向传播算法,旨在提高变换器架构中长序列的计算效率。通过控制参数$c$,该算法切断大部分注意力权重的反向传播,将复杂度从$O(n^2)$降低到$O(nc)$,显著提升训练效率。

SUS Backpropagation: A Linear Backpropagation Algorithm for Long Inputs in Transformers

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-21T00:00:00Z

本研究探讨了深度正则化的ResNet和Transformer中的神经崩溃现象,发现经过训练的全局最优解接近崩溃状态,且随着网络深度增加,这种近似更加紧密。这一发现为深度模型的应用提供了理论支持,并在计算机视觉和语言数据集上进行了验证。

Neural Collapse is Globally Optimal in Deep Regularized ResNets and Transformers

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-21T00:00:00Z

本研究提出了一种新颖的脉冲变压器强化学习(STRL)算法,旨在解决传统变压器在自主系统中的能耗问题。该算法结合了脉冲神经网络的能效与强化学习的决策能力,显著优于传统方法,展示了生物启发的低成本机器学习模型在复杂决策中的潜力。

Efficient Deep Reinforcement Learning with Pulse Transformers

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-20T00:00:00Z

本研究提出了反事实推理决策变换器(CRDT),解决了决策变换器在离线数据集上因数据不足导致的性能问题。实验结果表明,CRDT在数据受限和动态变化的情况下优于传统方法,展示了反事实推理在强化学习中的潜力。

Beyond the Known: Decision Transformers with Counterfactual Reasoning

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-14T00:00:00Z

本研究探讨了变压器模型的两种学习模式:权重内学习(IWL)和上下文学习(ICL)。结果表明,环境的可预测性影响这两种模式的平衡。在高稳定性环境中,IWL更有效,而在低稳定性环境中,ICL更具优势。这为学习模式的转换和训练方法的改进提供了新见解。

Predictability Shapes Adaptation: An Evolutionary Perspective on Learning Modes in Transformers

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-14T00:00:00Z

本研究提出了一种二维语义感知位置编码($ ext{SaPE}^2$),有效解决了现有位置编码无法捕捉图像补丁间语义关系的问题,从而显著提升了模型的泛化能力和视觉任务性能。

Two-Dimensional Semantic-Aware Positional Encoding for Vision Transformers

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-14T00:00:00Z

本文探讨了自注意力机制在图信号处理中的局限性,提出了一种新方法——注意力图滤波器(AGF),通过奇异值域建模,提高了频率信息的利用效率。实验结果表明,AGF在多个任务中表现优异。

Learning Advanced Self-Attention of Linear Transformers in the Singular Value Domain

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-13T00:00:00Z

本研究分析了视觉变压器在标签噪声条件下的表现,结果显示大模型在分类准确性和校准效果上优于小模型,为资源受限环境的应用提供了指导。

Balancing Accuracy, Calibration, and Efficiency in Active Learning with Vision Transformers under Label Noise

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-07T00:00:00Z

本研究提出了JointDiT模型,通过扩散变换器增强RGB和深度的联合建模。采用自适应调度权重和不平衡时间步采样策略,JointDiT显著提升了图像生成和深度估计的性能,展现了在多种生成任务中的应用潜力。

JointDiT: Enhancing RGB-Depth Joint Modeling with Diffusion Transformers

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-01T00:00:00Z

本研究提出了一种基于变换器的多模态框架,旨在提高医疗器械风险分类的准确性。该框架结合文本和视觉信息,利用跨注意力机制和自我训练策略,在有限监督下实现更好的泛化,实验结果显示准确率高达90.4%。

Toward Automated Regulatory Decision-Making: Trustworthy Medical Device Risk Classification with Multimodal Transformers and Self-Training

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-01T00:00:00Z

本研究提出了一种新的纵向表转换器(LTT)模型,以提高电力供应商在自然灾害中估计电力恢复时间(ETR)的准确性。分析了34,000个故障事件后,LTT模型的客户满意度指标平均提高了19.08%。

Using Longitudinal Table Transformers to Estimate Power Outage Restoration Times

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-01T00:00:00Z

本研究提出了“GarmentDiffusion”模型,解决了现有服装缝制图案生成方法的单一输入和低效率问题。该模型能够从文本、图像及不完整缝制图案生成精确的3D缝制图案,速度是SewingGPT的100倍,显著提升了服装设计的多样性和效率。

Garment Diffusion: 3D Garment Sewing Pattern Generation Based on Multimodal Diffusion Transformers

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-30T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码