🔍TPU 脉动阵列 笔记

type
status
date
slug
summary
tags
category
icon
password
AI summary

Systolic Architectures

直观对比: CPU:
GPU:
TPU:
notion image
PE是 processing element,只能做简单的计算, 箭头表示数据流动,只有边缘的部分会和 外部Memory 进行读写。 weight进行preload,并且固定,横向流动input,纵向流动partial sum.
notion image
notion image
notion image
weight 和 input是放在不同memory上的,其中weight的带宽比input的带宽小多了。(30 GiB/s : 156 GiB/s)。 在CNN时代,weight要比input小很多,这个配比应该是合理的?但是在Transformer时代,几个带权Matmul的weight也都很大,这个配比或许就不太ok了。 如果matmul的shape超过阵列的大小,就需要分块。

不足

matmul的shape如果和阵列规模不匹配,会造成PE资源和带宽资源的双重浪费。
notion image
 
Prev
从三极管到bank冲突,RAM原理学习
Next
Deepseek EPLB Note
Loading...