小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
谷歌的张量处理单元(TPU)是如何工作的?

TPU(张量处理单元)是谷歌为深度学习设计的专用芯片,采用脉动阵列结构,显著提升计算效率。通过减少数据移动和优化矩阵运算,TPU解决了计算瓶颈,支持大规模语言模型的训练与推理。

谷歌的张量处理单元(TPU)是如何工作的?

ByteByteGo Newsletter
ByteByteGo Newsletter · 2026-01-05T16:31:12Z

NVIDIA的Tensor Core专为加速矩阵运算而设计,TN布局在GEMM问题中表现最佳,优化了内存访问和缓存利用率,从而显著提升性能。大多数NVIDIA GPU架构仅支持TN布局的MMA指令。

NVIDIA Tensor Core TN布局MMA指令

Lei Mao's Log Book
Lei Mao's Log Book · 2025-12-06T08:00:00Z

现代计算机的性能瓶颈已转向内存访问,缓存无关算法在所有层级缓存上实现最优性能,无需了解缓存参数。通过递归分解问题,缓存无关算法自动适应缓存大小,适用于矩阵运算和优先队列等场景,尽管常数因子较大,但其理论价值在于揭示了不依赖硬件参数的通用最优策略。

缓存无关算法:让硬件替你优化

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2025-07-15T00:00:00Z

本文介绍了Timeline诊断类型及其在性能分析中的重要性,通过示例代码展示矩阵运算,并使用dottrace工具采集线程活动和GC信息。总结指出,Timeline模式在某些场景下比其他工具更直观。

DotTrace系列:2. 理解四大经典的诊断类型(下) - 一线码农

一线码农
一线码农 · 2025-06-22T06:21:00Z
如何在2025年使用PyTorch中的GPU加速?

随着深度学习模型复杂性的增加,GPU加速在PyTorch中的应用变得至关重要。使用GPU可以显著提升矩阵和张量计算的速度。确保安装兼容CUDA的PyTorch,并将模型和张量迁移到GPU,以优化性能和提高训练效率。

如何在2025年使用PyTorch中的GPU加速?

DEV Community
DEV Community · 2025-05-02T01:06:54Z
RustyNum后续:最新见解与持续开发

RustyNum是一个轻量级的Rust替代NumPy库,专注于高性能和小体积。最近更新包括矩阵运算加速、常用分析任务及新教程,展示机器学习中的应用。开发者正在优化大矩阵性能,扩展数据类型,并完善文档。

RustyNum后续:最新见解与持续开发

DEV Community
DEV Community · 2025-02-16T20:38:17Z
机器学习与深度学习中的NumPy

Numpy是一个用于数组处理的Python库,支持线性代数和矩阵运算。常用功能包括创建全零、全一、指定值和范围数组,支持索引、切片和布尔索引。

机器学习与深度学习中的NumPy

DEV Community
DEV Community · 2024-11-08T03:49:45Z

本研究提出GE2E-KWS框架,旨在提高定制关键词识别的效率与稳定性。通过优化矩阵运算,显著提升了训练速度和收敛稳定性,实验结果表明其在关键词匹配准确性和实时性能上优于现有方法。

GE2E-KWS:用于零-shot关键词识别的通用端到端训练和评估

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-22T00:00:00Z

m2cgen是一个用于生成机器学习C语言推理代码的工具,将矩阵运算和tensor转换为C语言数组,并对代码进行优化。使用简单,只需训练模型,导出纯C语言函数形式的代码。

m2cgen生成机器学习c语言推理代码

plus studio
plus studio · 2023-09-07T15:48:00Z

GPU的算力比CPU强大得多,原因在于GPU集成了更多的处理单元,可以高度并行化,一次可以执行成千上万个线程,实现超高的计算粒度和吞吐量。此外,GPU的处理单元更简单,主要针对高度并行的矩阵和向量运算优化,内存带宽也更高,专门为大规模矩阵运算和数据访问优化。因此,使用GPU做机器学习已成为标配,最早的论文是2012年Alex Krizhevsky、Ilya Sutskever和Geoffrey E. Hinton发表的《ImageNet Classification with Deep Convolutional Neural Networks》。

使用GPU训练神经网络的历史 - 蝈蝈俊

蝈蝈俊
蝈蝈俊 · 2023-04-20T02:38:00Z

快速幂算法通过二分法将幂运算的复杂度从O(n)降低到O(log n)。该算法适用于整数和矩阵的快速幂运算,利用结合律实现高效计算。实现时需定义矩阵类并重载运算符,以支持矩阵乘法和快速幂运算。

数论——快速幂

Xuanwo's Blog
Xuanwo's Blog · 2015-03-18T17:43:59Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码