TPU 脉动阵列笔记 | 实在之路

🔍TPU 脉动阵列笔记

type

status

date

slug

summary

Systolic Architectures

直观对比： CPU:

GPU:

TPU:

PE是 processing element，只能做简单的计算, 箭头表示数据流动，只有边缘的部分会和外部Memory 进行读写。 weight进行preload，并且固定，横向流动input，纵向流动partial sum.

weight 和 input是放在不同memory上的，其中weight的带宽比input的带宽小多了。(30 GiB/s : 156 GiB/s)。 在CNN时代，weight要比input小很多，这个配比应该是合理的？但是在Transformer时代，几个带权Matmul的weight也都很大，这个配比或许就不太ok了。 如果matmul的shape超过阵列的大小，就需要分块。

不足

matmul的shape如果和阵列规模不匹配，会造成PE资源和带宽资源的双重浪费。

从三极管到bank冲突，RAM原理学习

Deepseek EPLB Note

🔍TPU 脉动阵列 笔记

Systolic Architectures

不足

🔍TPU 脉动阵列笔记