小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本文探讨了GPU在大模型训练中的优势,特别是与CPU的对比。GPU通过大量弱核和简化控制实现高算力密度,适合处理大规模矩阵运算。分析了GPU的执行模型、内存层级及Tensor Core的演进,强调带宽与算力平衡对性能的影响,并提出了优化策略以提高GPU在解码阶段的利用率。

【大模型基础设施工程】02:GPU 计算入门——SM、Tensor Core、HBM、NVLink

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-22T00:00:00Z
Tensor Fusion - 一种开源的GPU虚拟化和资源池解决方案,旨在提升集群利用率...

Tensor Fusion是一种针对GPU集群的虚拟化和资源池解决方案,旨在提升集群利用率和降低推理延迟。它支持动态GPU池、低延迟推理、自动扩展和调度,适合高推理密度和多租户环境,有效处理多模型和多租户工作负载。

Tensor Fusion - 一种开源的GPU虚拟化和资源池解决方案,旨在提升集群利用率...

云原生
云原生 · 2026-01-06T10:34:15Z

NVIDIA的Tensor Core专为加速矩阵运算而设计,TN布局在GEMM问题中表现最佳,优化了内存访问和缓存利用率,从而显著提升性能。大多数NVIDIA GPU架构仅支持TN布局的MMA指令。

NVIDIA Tensor Core TN布局MMA指令

Lei Mao's Log Book
Lei Mao's Log Book · 2025-12-06T08:00:00Z
有人想买一辆能自动驾驶的车吗?

Tensor公司宣称将首次大规模销售完全自动驾驶汽车,但面临技术和法律障碍。专家认为私人自动驾驶汽车不切实际,维护成本高且外观不佳。尽管市场对自动驾驶汽车持怀疑态度,汽车制造商仍在投资以保持竞争力。

有人想买一辆能自动驾驶的车吗?

The Verge
The Verge · 2025-12-03T15:00:00Z

NVIDIA GPU的峰值AI性能通常以TFLOPS或TOPS表示,但使用HPC软件重现这些性能并不总是有效。通过自定义微基准测试直接调用Tensor Core MMA指令,可以更可靠地测量性能。本文介绍了如何使用CUTLASS和CuTe测量NVIDIA Tensor Core MMA指令的峰值性能,并提供选择合适指令的参考。

基准测试NVIDIA Tensor Core MMA指令的峰值性能

Lei Mao's Log Book
Lei Mao's Log Book · 2025-11-26T08:00:00Z

在本期Google播客中,主持人Rachid Finge与Google硅团队的产品经理Jesse Seed讨论了Tensor G5芯片在Pixel 10和Pixel Fold中的应用,以及其对AI技术进步的推动作用。

收听关于Tensor G5如何让Pixel 10更出色的播客深度解析。

The Keyword
The Keyword · 2025-09-24T20:16:00Z

Google 最近发布了 Pixel 10 系列,搭载台积电代工的 Tensor G5 芯片,采用 Imagination 的 PowerVR GPU 架构。PowerVR 自1992年起发展,曾与世嘉等公司合作,现正寻求在 Android 生态中实现多元化发展。

曾是 iPhone 的心脏,现以 Pixel 形态出击:聊聊 Google Tensor G5 的 GPU 架构

少数派
少数派 · 2025-08-26T06:46:22Z

谷歌推出的Tensor G5芯片采用3nm工艺,提升了Pixel手机的性能,提供60%更强的TPU和34%更快的CPU,支持先进的设备内AI应用。新功能包括改进的摄像头、长达30小时的电池续航,增强用户体验。

谷歌Tensor G5为何成为Pixel手机的游戏规则改变者的五大理由

The Keyword
The Keyword · 2025-08-20T16:00:00Z
Tensor想成为首家向您销售‘机器人汽车’的公司——但他们是谁?

Tensor公司宣布推出首款量产的L4级别个人自驾车,计划于2026年在美国、欧洲和中东上市。该车配备多种高科技传感器,旨在提升个人自由和隐私。

Tensor想成为首家向您销售‘机器人汽车’的公司——但他们是谁?

The Verge
The Verge · 2025-08-13T15:00:00Z
Pytorch转ONNX报错-Cannot insert a Tensor that requires grad as a constant

在将Pytorch模型转换为ONNX时,遇到“无法将需要梯度的Tensor作为常量”的错误。问题出在Conv2D层的权重设置为requires_grad为True。最终解决方案是将模型所有层的参数设置为requires_grad = False。

Pytorch转ONNX报错-Cannot insert a Tensor that requires grad as a constant

Yunfeng's Simple Blog
Yunfeng's Simple Blog · 2025-07-09T11:16:09Z

Triton 是一种基于 Python 的并行编程语言和编译器,旨在高效编写自定义 DNN 计算内核,并在现代 GPU 上运行。其核心数据结构为张量,支持多种操作和函数,简化编程过程。

【Triton 教程】triton_language.tensor

HyperAI超神经
HyperAI超神经 · 2025-05-20T03:03:03Z

本研究提出了TensorRL-QAS框架,结合张量网络与强化学习,解决量子架构搜索的可扩展性问题。该方法显著减少了CNOT门的使用和电路深度,提高了成功率,展示了在量子硬件上的高效性和鲁棒性。

TensorRL-QAS: Application of Tensor Network-Based Reinforcement Learning in Scalable Quantum Architecture Search

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-14T00:00:00Z

本研究提出了一种新训练目标,通过对语义表示施加约束,增强正样本对齐。同时,针对BERT模型的注意力沉没现象,提出交叉注意力结构,以提升CLS标签的注意力和池化质量。该方法在多个语义文本相似度任务中表现优异。

JTCSE: Joint Tensor Modal Constraints and Cross-Attention for Unsupervised Contrastive Learning of Sentence Embeddings

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-05T00:00:00Z

本研究探讨将树张量网络嵌入量子神经网络,以解决多类图像分类问题。通过引入森林张量网络分类器,研究者成功应对高阶门操作和低成功率问题,证明该方法在提升预训练分类器性能方面的有效性,展示了TTN与QNN的协同作用为量子图像分类提供了稳健框架。

Trainable Quantum Neural Networks for Multiclass Image Classification, Leveraging the Advantages of Pre-trained Tree Tensor Networks

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-21T00:00:00Z

本研究通过结合预训练的欧几里得模型与超曲线交互项,解决了知识图谱补全中的几何表达不足问题,从而提高了链接预测的准确性和数据分布特性的捕捉能力。

Knowledge Graph Completion via Hybrid Geometric Tensor Decomposition

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-03T00:00:00Z

本研究提出了TenAd方法,以解决深度学习视频分类模型在黑箱对抗攻击中的脆弱性。通过将视频表示为四阶张量,TenAd显著降低了搜索空间和查询次数,提高了攻击成功率和查询效率,生成几乎不可察觉的对抗扰动。

TenAd: A Tensor-Based Low-Rank Black-Box Adversarial Attack Method for Video Classification

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-01T00:00:00Z

本研究提出了BitDecoding框架,解决了长上下文大语言模型在自回归解码中因KV缓存扩展带来的内存和计算挑战。该框架通过优化低位KV缓存的解码过程,显著减少去量化开销,实现了高达7.5倍的速度提升,展示了其在长上下文生成中的有效性。

BitDecoding: Unlocking Tensor Cores for Long-Context LLM Decoding with Low-Bit KV Cache

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-24T00:00:00Z

triton_drop_shader.earth是一个用于计算机图形学的顶点着色器,专注于水面和地球模型的涡旋效果,通过优化实现真实的波动和动态效果,广泛应用于电影和游戏等领域。

【Triton 教程】triton_language.tensor

HyperAI超神经
HyperAI超神经 · 2025-03-19T08:29:18Z

Triton 是一种基于 Python 的并行编程语言和编译器,专为高效编写自定义 DNN 计算内核而设计,支持现代 GPU 硬件。其核心数据结构为 N 维数组 tensor,并提供多种操作函数。

【Triton 教程】triton_language.tensor

HyperAI超神经
HyperAI超神经 · 2025-03-12T08:40:30Z

本研究提出JotlasNet,解决动态MRI重建中张量特征和稀疏约束不足的问题,显著提升了重建效果,实验结果在两个数据集上表现优异。

JotlasNet: A Joint Tensor Low-Rank and Attention-Based Sparse Expansion Network for Accelerating Dynamic MRI

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-17T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码