小红花·文摘

Tensor Fusion - 一种开源的GPU虚拟化和资源池解决方案，旨在提升集群利用率...

云原生 ·

NVIDIA的Tensor Core专为加速矩阵运算而设计，TN布局在GEMM问题中表现最佳，优化了内存访问和缓存利用率，从而显著提升性能。大多数NVIDIA GPU架构仅支持TN布局的MMA指令。

NVIDIA Tensor Core TN布局MMA指令

Lei Mao's Log Book ·

NVIDIA GPU的峰值AI性能通常以TFLOPS或TOPS表示，但使用HPC软件重现这些性能并不总是有效。通过自定义微基准测试直接调用Tensor Core MMA指令，可以更可靠地测量性能。本文介绍了如何使用CUTLASS和CuTe测量NVIDIA Tensor Core MMA指令的峰值性能，并提供选择合适指令的参考。

基准测试NVIDIA Tensor Core MMA指令的峰值性能

Lei Mao's Log Book ·

The Made by Google Podcast takes a deep dive into the Tensor G5 chip, the brains behind the new Pixel 10.

Listen to a podcast deep dive on how Tensor G5 makes Pixel 10 better than ever.

The Keyword ·

Google 最近发布了 Pixel 10 系列，搭载台积电代工的 Tensor G5 芯片，采用 Imagination 的 PowerVR GPU 架构。PowerVR 自1992年起发展，曾与世嘉等公司合作，现正寻求在 Android 生态中实现多元化发展。

曾是 iPhone 的心脏，现以 Pixel 形态出击：聊聊 Google Tensor G5 的 GPU 架构

少数派 ·

谷歌推出的Tensor G5芯片采用3nm工艺，提升了Pixel手机的性能，提供60%更强的TPU和34%更快的CPU，支持先进的设备内AI应用。新功能包括改进的摄像头、长达30小时的电池续航，增强用户体验。

谷歌Tensor G5为何成为Pixel手机的游戏规则改变者的五大理由

The Keyword ·

Tensor想成为首家向您销售‘机器人汽车’的公司——但他们是谁？

The Verge ·

pytorch模型转换onnx的时候，遇到了下面的报错信息： 1RuntimeError: Cannot insert a Tensor that requires grad as a constant. Consider making it a parameter or input, or detaching the gradient...

Pytorch转ONNX报错-Cannot insert a Tensor that requires grad as a constant

Yunfeng's Simple Blog ·

Triton 是一种基于 Python 的并行编程语言和编译器，旨在高效编写自定义 DNN 计算内核，并在现代 GPU 上运行。其核心数据结构为张量，支持多种操作和函数，简化编程过程。

【Triton 教程】triton_language.tensor

HyperAI超神经 ·

本研究提出了TensorRL-QAS框架，结合张量网络与强化学习，解决量子架构搜索的可扩展性问题。该方法显著减少了CNOT门的使用和电路深度，提高了成功率，展示了在量子硬件上的高效性和鲁棒性。

TensorRL-QAS: Application of Tensor Network-Based Reinforcement Learning in Scalable Quantum Architecture Search

BriefGPT - AI 论文速递 ·

本研究提出了一种新训练目标，通过对语义表示施加约束，增强正样本对齐。同时，针对BERT模型的注意力沉没现象，提出交叉注意力结构，以提升CLS标签的注意力和池化质量。该方法在多个语义文本相似度任务中表现优异。

JTCSE: Joint Tensor Modal Constraints and Cross-Attention for Unsupervised Contrastive Learning of Sentence Embeddings

BriefGPT - AI 论文速递 ·

本研究提出了TenAd方法，以解决深度学习视频分类模型在黑箱对抗攻击中的脆弱性。通过将视频表示为四阶张量，TenAd显著降低了搜索空间和查询次数，提高了攻击成功率和查询效率，生成几乎不可察觉的对抗扰动。

TenAd: A Tensor-Based Low-Rank Black-Box Adversarial Attack Method for Video Classification

BriefGPT - AI 论文速递 ·

本研究提出了BitDecoding框架，优化了长上下文大语言模型的自回归解码，显著降低了内存和计算需求，速度提升可达7.5倍。

BitDecoding：利用低位KV缓存解锁Tensor Cores以进行长上下文LLMs解码

BriefGPT - AI 论文速递 ·

triton_drop_shader.earth是一个用于计算机图形学的顶点着色器，专注于水面和地球模型的涡旋效果，通过优化实现真实的波动和动态效果，广泛应用于电影和游戏等领域。

【Triton 教程】triton_language.tensor

HyperAI超神经 ·

Triton 是一种基于 Python 的并行编程语言和编译器，专为高效编写自定义 DNN 计算内核而设计，支持现代 GPU 硬件。其核心数据结构为 N 维数组 tensor，并提供多种操作函数。

【Triton 教程】triton_language.tensor

HyperAI超神经 ·

本研究提出低张量秩适应（LoTRA）方法，优化Kolmogorov-阿诺德网络在迁移学习中的微调过程，通过自适应学习率策略提升训练效率，并验证其在偏微分方程等任务中的有效性。

Low Tensor Rank Adaptation of Kolmogorov-Arnold Networks

BriefGPT - AI 论文速递 ·

介绍 Tensor++

DEV Community ·

本研究提出了一种新颖的张量语义形式化方法，旨在解决不安全编程语言中的逻辑约束风险。通过在Isabelle/HOL中进行正确性证明，结合可微损失函数，提高了约束训练的效率与安全性。

Formal Verification of Neural-Symbolic Trajectory Learning via Tensor-Based Linear Temporal Logic on Finite Traces

BriefGPT - AI 论文速递 ·

本研究提出了一种新网络架构Centaurus，旨在优化状态空间模型（SSM）的训练效率，从而提升关键词检测、语音降噪和自动语音识别等音频处理任务的性能。

Making State-Space Models Convolutional Networks: State-Space Modeling with Optimal Tensor Contractions

BriefGPT - AI 论文速递 ·

配有 NVIDIA H200 Tensor Core GPU 和 EFAv3 联网功能的全新 Amazon EC2 P5en 实例

亚马逊AWS官方博客 ·