小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本文探讨了GPU在大模型训练中的优势,特别是与CPU的对比。GPU通过大量弱核和简化控制实现高算力密度,适合处理大规模矩阵运算。分析了GPU的执行模型、内存层级及Tensor Core的演进,强调带宽与算力平衡对性能的影响,并提出了优化策略以提高GPU在解码阶段的利用率。

【大模型基础设施工程】02:GPU 计算入门——SM、Tensor Core、HBM、NVLink

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-22T00:00:00Z
Tensor Fusion - 一种开源的GPU虚拟化和资源池解决方案,旨在提升集群利用率...

Tensor Fusion是一种针对GPU集群的虚拟化和资源池解决方案,旨在提升集群利用率和降低推理延迟。它支持动态GPU池、低延迟推理、自动扩展和调度,适合高推理密度和多租户环境,有效处理多模型和多租户工作负载。

Tensor Fusion - 一种开源的GPU虚拟化和资源池解决方案,旨在提升集群利用率...

云原生
云原生 · 2026-01-06T10:34:15Z

NVIDIA的Tensor Core专为加速矩阵运算而设计,TN布局在GEMM问题中表现最佳,优化了内存访问和缓存利用率,从而显著提升性能。大多数NVIDIA GPU架构仅支持TN布局的MMA指令。

NVIDIA Tensor Core TN布局MMA指令

Lei Mao's Log Book
Lei Mao's Log Book · 2025-12-06T08:00:00Z
有人想买一辆能自动驾驶的车吗?

Tensor公司宣称将首次大规模销售完全自动驾驶汽车,但面临技术和法律障碍。专家认为私人自动驾驶汽车不切实际,维护成本高且外观不佳。尽管市场对自动驾驶汽车持怀疑态度,汽车制造商仍在投资以保持竞争力。

有人想买一辆能自动驾驶的车吗?

The Verge
The Verge · 2025-12-03T15:00:00Z

NVIDIA GPU的峰值AI性能通常以TFLOPS或TOPS表示,但使用HPC软件重现这些性能并不总是有效。通过自定义微基准测试直接调用Tensor Core MMA指令,可以更可靠地测量性能。本文介绍了如何使用CUTLASS和CuTe测量NVIDIA Tensor Core MMA指令的峰值性能,并提供选择合适指令的参考。

基准测试NVIDIA Tensor Core MMA指令的峰值性能

Lei Mao's Log Book
Lei Mao's Log Book · 2025-11-26T08:00:00Z

在本期Google播客中,主持人Rachid Finge与Google硅团队的产品经理Jesse Seed讨论了Tensor G5芯片在Pixel 10和Pixel Fold中的应用,以及其对AI技术进步的推动作用。

收听关于Tensor G5如何让Pixel 10更出色的播客深度解析。

The Keyword
The Keyword · 2025-09-24T20:16:00Z

Google 最近发布了 Pixel 10 系列,搭载台积电代工的 Tensor G5 芯片,采用 Imagination 的 PowerVR GPU 架构。PowerVR 自1992年起发展,曾与世嘉等公司合作,现正寻求在 Android 生态中实现多元化发展。

曾是 iPhone 的心脏,现以 Pixel 形态出击:聊聊 Google Tensor G5 的 GPU 架构

少数派
少数派 · 2025-08-26T06:46:22Z

谷歌推出的Tensor G5芯片采用3nm工艺,提升了Pixel手机的性能,提供60%更强的TPU和34%更快的CPU,支持先进的设备内AI应用。新功能包括改进的摄像头、长达30小时的电池续航,增强用户体验。

谷歌Tensor G5为何成为Pixel手机的游戏规则改变者的五大理由

The Keyword
The Keyword · 2025-08-20T16:00:00Z
Tensor想成为首家向您销售‘机器人汽车’的公司——但他们是谁?

Tensor公司宣布推出首款量产的L4级别个人自驾车,计划于2026年在美国、欧洲和中东上市。该车配备多种高科技传感器,旨在提升个人自由和隐私。

Tensor想成为首家向您销售‘机器人汽车’的公司——但他们是谁?

The Verge
The Verge · 2025-08-13T15:00:00Z
Pytorch转ONNX报错-Cannot insert a Tensor that requires grad as a constant

在将Pytorch模型转换为ONNX时,遇到“无法将需要梯度的Tensor作为常量”的错误。问题出在Conv2D层的权重设置为requires_grad为True。最终解决方案是将模型所有层的参数设置为requires_grad = False。

Pytorch转ONNX报错-Cannot insert a Tensor that requires grad as a constant

Yunfeng's Simple Blog
Yunfeng's Simple Blog · 2025-07-09T11:16:09Z

Triton 是一种基于 Python 的并行编程语言和编译器,旨在高效编写自定义 DNN 计算内核,并在现代 GPU 上运行。其核心数据结构为张量,支持多种操作和函数,简化编程过程。

【Triton 教程】triton_language.tensor

HyperAI超神经
HyperAI超神经 · 2025-05-20T03:03:03Z

本研究提出了TensorRL-QAS框架,结合张量网络与强化学习,解决量子架构搜索的可扩展性问题。该方法显著减少了CNOT门的使用和电路深度,提高了成功率,展示了在量子硬件上的高效性和鲁棒性。

TensorRL-QAS: Application of Tensor Network-Based Reinforcement Learning in Scalable Quantum Architecture Search

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-14T00:00:00Z

本研究提出了一种新训练目标,通过对语义表示施加约束,增强正样本对齐。同时,针对BERT模型的注意力沉没现象,提出交叉注意力结构,以提升CLS标签的注意力和池化质量。该方法在多个语义文本相似度任务中表现优异。

JTCSE: Joint Tensor Modal Constraints and Cross-Attention for Unsupervised Contrastive Learning of Sentence Embeddings

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-05T00:00:00Z

本研究探讨将树张量网络嵌入量子神经网络,以解决多类图像分类问题。通过引入森林张量网络分类器,研究者成功应对高阶门操作和低成功率问题,证明该方法在提升预训练分类器性能方面的有效性,展示了TTN与QNN的协同作用为量子图像分类提供了稳健框架。

Trainable Quantum Neural Networks for Multiclass Image Classification, Leveraging the Advantages of Pre-trained Tree Tensor Networks

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-21T00:00:00Z

本研究通过结合预训练的欧几里得模型与超曲线交互项,解决了知识图谱补全中的几何表达不足问题,从而提高了链接预测的准确性和数据分布特性的捕捉能力。

Knowledge Graph Completion via Hybrid Geometric Tensor Decomposition

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-03T00:00:00Z

本研究提出了TenAd方法,以解决深度学习视频分类模型在黑箱对抗攻击中的脆弱性。通过将视频表示为四阶张量,TenAd显著降低了搜索空间和查询次数,提高了攻击成功率和查询效率,生成几乎不可察觉的对抗扰动。

TenAd: A Tensor-Based Low-Rank Black-Box Adversarial Attack Method for Video Classification

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-01T00:00:00Z

本研究提出了BitDecoding框架,解决了长上下文大语言模型在自回归解码中因KV缓存扩展带来的内存和计算挑战。该框架通过优化低位KV缓存的解码过程,显著减少去量化开销,实现了高达7.5倍的速度提升,展示了其在长上下文生成中的有效性。

BitDecoding: Unlocking Tensor Cores for Long-Context LLM Decoding with Low-Bit KV Cache

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-24T00:00:00Z

triton_drop_shader.earth是一个用于计算机图形学的顶点着色器,专注于水面和地球模型的涡旋效果,通过优化实现真实的波动和动态效果,广泛应用于电影和游戏等领域。

【Triton 教程】triton_language.tensor

HyperAI超神经
HyperAI超神经 · 2025-03-19T08:29:18Z

Triton 是一种基于 Python 的并行编程语言和编译器,专为高效编写自定义 DNN 计算内核而设计,支持现代 GPU 硬件。其核心数据结构为 N 维数组 tensor,并提供多种操作函数。

【Triton 教程】triton_language.tensor

HyperAI超神经
HyperAI超神经 · 2025-03-12T08:40:30Z

本研究提出JotlasNet,解决动态MRI重建中张量特征和稀疏约束不足的问题,显著提升了重建效果,实验结果在两个数据集上表现优异。

JotlasNet: A Joint Tensor Low-Rank and Attention-Based Sparse Expansion Network for Accelerating Dynamic MRI

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-17T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码