🔍TPU 脉动阵列 笔记
type
status
date
slug
summary
tags
category
icon
password
AI summary
Systolic Architectures
直观对比:
CPU:
GPU:
TPU:

PE是 processing element,只能做简单的计算, 箭头表示数据流动,只有边缘的部分会和 外部Memory 进行读写。
weight进行preload,并且固定,横向流动input,纵向流动partial sum.



weight 和 input是放在不同memory上的,其中weight的带宽比input的带宽小多了。(30 GiB/s : 156 GiB/s)。
在CNN时代,weight要比input小很多,这个配比应该是合理的?但是在Transformer时代,几个带权Matmul的weight也都很大,这个配比或许就不太ok了。
如果matmul的shape超过阵列的大小,就需要分块。
不足
matmul的shape如果和阵列规模不匹配,会造成PE资源和带宽资源的双重浪费。

Prev
从三极管到bank冲突,RAM原理学习
Next
Deepseek EPLB Note
Loading...