🔢torch代码笔记
type
status
date
slug
summary
tags
category
icon
password
AI summary
🏹Lowering 总览

fx_codegen_and_compile
: 编译fx图GraphLowering.run()
: 遍历每个fx node, lowering成inductor ir
GraphLowering.compile_to_fn()
: 继续lowering成可行的function,包含系列优化GraphLowering
:
- 内部由scheduler.generate完成codegen
Scheduler
: 负责inductor -> codegen, 会根据device选择不同codgen实现。
codegen()
:遍历node, 用对应device的backend
进行codegen
BaseScheduling
: 负责kernel code的codegen的backend , 比如cuda =>CudaCombinedScheduling
/TritonScheduling
- 内部codegen时,具体的op会dispatch,调用到TritonKernel身上的函数去做
WrapperCodeGen
: 负责wrapper code的codegen, 也就是调用kernel的那部分代码
🍇fx
graph.Graph
Node
- Placeholder: graph input
- get_attr: 从module身上拿一个属性,通常用来取weight
- call_function: 调用函数
- call_module:调用另一个module的forward函数
- call_method: 在一个value身上调用其的一个method
- Output: graph output
😺inductor
Ir. IRNode
IRNode基类
realize
: 实例化到一个physical memorby.- 没有被realize的data, 包含了其计算的所有信息,具体在ir上表现为依然是一个Pointwise/Reduction 节点
- 被realize的data,则是一个computed buffer,会对应一个physical memory
- Poiontwise/Reduction的loader是 其inner_fn
- computed_buffer的loader就是 ops.load
- 所以realize实际上也就表示了终止可能的fuse
codegen_reference
:?
Layout
基类,包含size, stride, offset,dtype, device信息
FixedLayout
make_indexer
: 返回一个indexer函数 logical_coord => physical_index。 ([int] -> int)
FlexibleLayout
一个临时状态的layout, 可以根据需要改变stride
pad_stride
: 根据[cuda memory transaction](https://docs.nvidia.com/cuda/cuda-c-programming-guide/index.html#global-memory-3-0:~:text=Global memory resides,by memory transactions.)的粒度,调整stride,使得每一维度的其实地址都是对齐的。
NonOwningLayout
Is a view into the storage of another tensor
是另一个tensor的alias
Loops
基类
tensor计算中,对循环的抽象,记录了range和inner_fn
- range
- innfer_fn: loop内的计算
Pointwise
继承自Loops, ElementWise的抽象
- store_output: 返回一个op.store, 用于store output
make_loader
: 返回inner_fn, 语义上loader就是一系列op,将自己load进reg/smem?
Scatter
继承自Loops,没看懂
Reduction
继承自Loops,reduction 类op的抽象
num_splits
根据reduction的规模,考虑到nv 硬件的特性,切分reduction,以获得更好的并行度。
返回类型:
[ReductionHint, split_count]
, 前者代表了切分的类型,后者代表具体切分的份数Buffer
name
Layout
should_allocate
: 标记当前buffer节点,是否需要新alloc memory, 比如view op的结果就不用,而matmul的结果就需要。
is_no_op
: 是否没有实际操作。InputKernel/NopKernel没有实际操作,ComputedBuffer当 elements数量为0时,没有实际操作。
make_loader
: 返回一个loader函数, logical_index -> element, 内部需要做logical_index -> phy_index的转换。 这里的index可以是symbol
InputBuffer
继承自Buffer,单纯的区别,没有额外信息
ConstantBuffer
ComputedBuffer
通过loop计算得到的buffer, 有一个类型为Loops的data成员
make_loader
: 通常都是返回 ops.load
- data: Loops
TritonTemplateBuffer
预先写好的template,实例化后的buffer。 Triton kernel的output tensor, 通过参数传进去。
MutableBox
对buffer的tensor 级别的抽象,抽象level更高
TensorBox / StorageBox allow in-place mutation of Tensors
StorageBox
- mark_reuse: 判断是否应该把tensor放到memory中,否的话,每次使用都需要重计算, 判断的参考因素有:
- User num
- 计算此tensor是否复杂, 比如有 exp, 子op数量大于30
- ...
realize
: 将self.data用ComputedBuffer包起来
TensorBox
- Abstraction Level:
- TensorBox is a higher-level abstraction that represents a tensor and its operations. It's the primary interface for tensor manipulations in the inductor system.
- StorageBox is a mid-level abstraction that manages the actual storage and computation state of a tensor. It sits between TensorBox and lower-level representations like Buffer.
- Relationship:
- TensorBox typically wraps a StorageBox, as seen in the
TensorBox.create
method:
一个graph input的实例:
ExternKernel
Extern Python/cpp kerne调用,构造函数传入kernel_name。
没有返回值的extern kernel调用。 没有返回值,也就是除了kernel args外,不需要额外memory作为返回值的空间。
ExternKernelOut
需要预先alloc memory作为返回值buffer的 kernel
- should_allocate: True
FallbackKernel
继承自ExternKernel
创建时,会把所有input都给realize了
output是一个MultiOutputLayout的东西,后续会用一个MultiOutput node从这个output中,把对应index的真正的buffer取出来, 这大概是因为整个inductor只能有一个返回值的背景下,一种hack的实现?
MultiOutput
从fallback kernel的output中,取出对应index的buffer
codegen后,不会有真正的操作, 是一条: buf2 = buf1
IndexingConstant
编译期已知的Index const
BaseView
- make_indexer: 先从view_logical_index -> data_logica_index -> phy_logical->index
- make_loader: 里面会做一次 index remap,从view_index -> data_index
ExpandView
Dependencies
Dep
基类,Dependency的抽象
MemoryDep
对memroy 依赖的抽象,代表对memory中部分区域/维度的访问, 记录了对memroy的access pattern, 对同一个memory,两种没有交集的access pattern的MemoryDep, 可能可以做一些事情?
StarDep
内部记录了依赖memory的名字。
与MemroyDep不同,StarDep代表对整个buffer的依赖。
Star代表了 *, 而 * 通常代表了全部, 比如正则表达式里的 *
WeakDep
两个node之间没有直接data dep, 但在执行顺序上依然可能有依赖,比如 write after read。
if A reads a buffer and B mutates it, B must be ordered after A
IndexExprDep
前面提到的Dep,依赖的对象都是buffer, IndexExprDep看起来是和index相关的依赖,依赖用于计算index的变量?
ReadWrites
读写操作的依赖集合, 可以merge, remove...
lowering.py
make_point_wise
inner_fn: 对所有input逐index, load, 然后调用fn
make_reduction_inner
里面会构造Reduction的inner_fn,Reduction的inner_fn,语义上是
(ouput_index, reduction_index) -> input_ele
内部做了个index的转换,包了下input的loader
这里保证了 new_index的维度,符合inner_loader的维度要求。
make_reduction
创建reduction, 如果reduction没有unroll, 则直接realize
GraphLowering
继承自 fx.Interpreter
- run: 挨个run_node, 将每个node lowering成: ExternKernel, ComptuedBuffer.....
- Codegen: inductor ir -> output_code.py, 内部核心:
- scheduler.codegen()
- scheduler.wrapper_code.generate()
Schedule
NodeUser
- can_inplace
BaseSchedulerNode
SchedulerNode基类
- users
- last_usage: # buffers that won't be used after this kernel, 用于在合适位置del buffer
- can_inplace: 判断函数'
- codegen
decide_inplace_update
决定是否inplace,前提条件:
- 当前node是最后一个user
- node_user.can_inplace == True
- input/output的reuse_key 一致
SchedulerNode
与ir.node的比较:
ir.Node:
- 关注计算本身逻辑的抽象 SchedulerNode:
- wrap了ir.Node
- 关注计算如何被执行, scheduling
- 执行顺序
- 优化可能
- ...
ir.Node
:- Computation definition
- Memory layout
- Data dependencies
- Operation implementation
SchedulerNode
:- Execution ordering
- Resource allocation
- Performance optimization
- Dependency management
- Fusion decisions
can_inplace
不是template_buffer
只有一个write。并且是MemoryDep类型
read和write的index以及size一致
ExternKernelSchedulerNode
主要处理extern kernel,没法做fuse, 处理side effects
Scheduler
构造时传入Buffer list, 为每个buffer都会创建一个对应的Scheduler Node
can_fuse_vertical
compute_dependencies
:考虑到mutaion和aliasing, 计算node间依赖. 会填写 SchedulerNode::users
init(self, ir.buffers)
- 为每个ir.Buffer,创建schedulerNode
compute_dependeccies
topological_sort_schedule
dead_node_elimination
: Remove any nodes without users
compute_ancestors
: 计算每个node的所有祖先节点
fuse_nodes
codegen
nodes -> lines, 不同type的IRNode有不同的codegen逻辑
- Extern kernel: 调用node.codgen free buffer的timing点:
- Codegen extern kernel后 Alloc buffer的timing点:
- Extern kernel out, should alloc = true
- SchedulerNode
can_fuse(node1, node2)
score_fusion_memory:
fuse后,减少的memory op的 size即:
- 既是那些就是属于node1的input,又属于node2的input, fuse后只用load一次。
can_fuse_vertical
- 访问模式相同
- Index
- size
fuse_nodes
尝试10次
fuse_nodes_once
fuse_nodes_once
KernelFormatterHandler
对于Loops的inner_fn,进行format到str
🤖codegen
🛳Wrapper Code
- allocate_groups: 对所有group排序后进行alloc
WrapperCodegen
- allocate_groups: 对所有group排序后进行alloc
memory_plan_reuse
while 判断最后一条line是否还是 MemoryPlanningLine, 如果是,说明plan没有结束,继续下一轮plan。
每一轮plan,都是遍历所在MemoryPlanningLine, 执行其 plan 函数
memory_plan
- 初始化buffer_groups, AllocateLine会创建一个group, reuseLine加入其input在的group
- 将原本的line,替换为对应的PoolLine
- 计算buffer group 的live range
codegen_free
释放memory
对于input buffer直接codegen “del buf",因为input buffer不可复用。
一些特殊buffer,不做free,如:constants...
对于其它buffer,则writeline:
FreeIfNotReusedLine
codegen_allocation
分配memory, writeline: AllocatieLine
对于以下情况不做处理:
- ir.ExternKernelAlloc: 会在kernel内部自己分配
- ir.MultiOutput: 只是从之前的大buffer中,取出对应的子buffer
- NonOwningLayout:view / ir.ReinterpretView
ReuseKey
= Tuple[device, dtype, storage_size]
Line
Wrapper code的一行
WrapperLine
Base class for all wrapper code line, empty mem funcs:
- plan
- codegen
MemoryPlanningLine
Base class for mem plan line
AllocateLine
Alloc a new mem
- Plan: 从planning_pool里面reuse_key查找是否有符合需求的buffer. 有就返回一个
ReuseLine
FreeIfNotReusedLine
Free a mem, 如果这个buffer后续没有被reuse,就free。
在创建这个line的时候,还不知道这个buffer在后面会不会被reuse
- Plan: 将自己push到 planing_pool里面
ReuseLine
对于inplace的node, 需要先把einterpret_tensor, 把input转成output的layout
- plan: 不做撒动作
PoolMemoryPlanningLine
memory pool操作的抽象
- group: 所在group
- timestep: live_range的index值
AllocFromPoolLine
Similar to AllocationLine, but takes memory from a pool"""
DeallocFromPoolLine
Similar to FreeIfNotReusedLine, but takes memory from a pool"""
memory_planning
AllocationTreeNode
Abstract base class for nodes in allocation pool.
- get_live_ranges -> LiveRanges
- get_size_hint -> int
- get_symbolic_size -> sympy.Expr
Empty
Placeholder to represent empty space in the allocation pool.
Only exists to get the size_hint correct in parent nodes.
AllocationTree的叶子节点, 只是一个占位符号
Allocation
Represents memory allocated to a given node in the allocation pool.
AllocationTree的叶子节点
- offset
- live_range
TemporalSplit
时间分片,包含一个allocation list, 每一项代表了同一块空间的mem, size相同,但是live range互不重叠。
Contains a list of allocations not overlapping in LiveRanges.
创建timing点:
- 创建AllocationPool时,会带一个初始的temporalSplit作为root
- expand root时,新增的部分也是一个temporalSplit, 新旧temporalSplit一起构成一个spatialSplit, 作为新root temporalSplit的唯一allocation
- allocations: List[AllocationTreeNode]
- get_size_hint: max of all allocations , 实际每次新增时间分片时,保证了每个分片的size相同
- get_live_rangs: join of ranges of each allocation
- _allocate(self, block):
- 判断有无overlap
- 如果over lap的数量大于1,直接失败, 这里注释也说了,可以进一步判断,但是目前没实现
- 如果over lap数量\==1, 尝试在与其overlapping的allocation上alloctate一次
- 没有overlap
- 如果大小刚好合适 slot_size == block_size, 直接append(block)
- 如果slot_size > block_size: 新增一个 SpatialSplit
- expand? 所以allocation list会在没有overlap,并且slot_size > block_size时,新增一个spatial split (block_size, slot_size - block_size) 所以allocation list的每一项都代表了对应pool的full memory, 但是每一项之间在live_range上不重叠。
SpatialSplit
空间切分,分片之间live_range有重叠,但不一定完全一致。size也不一定一致。
Contains two allocations, left and right, that do not overlap in space.
Right will be allocated immediately after left in memory.
- left: TemporalSplit
- right: TemporalSplit
- get_size_hint: left_size + right_size
- get_live_range: left_ranges + right_ranges
AllocationPool
代表一次调用torch.empty / alloc 所创建的memory
timing to create a new pool:
- allocate一个block时,如果无法在现有的pool中的alloc一块mem
- allocate
- try alloc in root
- expand root
AllocationPools
Collection of many AllocationPool objects grouped by device.

MemoryPlanner
利用live_range对memory 进行planning
具体参考:[[torch memory planning]]
allocate_groups
核心plan过程
分配顺序:按照(size, len(live_range))进行降序排序
🏭 Kernel Code
SIMDKernel
index_dtype
: "tl.int32"...
numels
: [4, 8192], 最后一维代表reduction维度?
inside_reduction
:numels[-1] != 1
TritonKernel(SIMDKernel)
codegen_kerenl()
:- codegen meta信息,函数签名信息等
codegen_body()
: 拼接 index_code, loads, compute, stores, suffix
- 身上放了各种 inductor op -> triton op 的逻辑 {my-arrow}
load(name, index)
: codegen reductionAto_dtype()
:reduction()
:...
SIMDScheduling
对 numel和reduction numel感知
codegen_node_schedulte()
: 可以分为下面两步codegen_node_schedule_with_kernel()
: 遍历node,进行codegenkernel.split_and_set_ranges(node.get_ranges())
: codegen 循环变量,r1 = rindex
node.codegen(index_vars)
: codegen 循环变量对应的循环体, 内部将循环体捕获成了一个fx graph, 然后通过set op handler
+run_node
dispatch 到TritonKernel::xxxOP
上面kernel.codegen_kernel()
tuned_mm
预定义的多个config, config里定义了block_m/n/k, num_stage/num_wraps。lowering的时候,实际跑了看性能选择.
📮Other
Inductor ir case
fx.graph lowering to Inductor ir
fx_codegen_and_compile中完成:
Lowering by run:
每个node type都register lowering方法,一边lowering一边做fuse
realize的timing点
- 创建Reduction,并且没有被unroll,会将reduction realize
- 创建Fallback kernel时,会将所有input realize
- Fallback kernel的output
- Lowering aten.mm时,会将input都realize了, 并且如果realize后,不是连续的,会copy一遍。 这里的连续指:某一维度的stride = 1
- Template buffer, 本身就是一个buffer了。 tuned_mm创建triton template时,output就是个template buffer
tuned_mm
triton_codegen
inductor fuse的timming点
GraphLowering.run()
将fx_node lowering成inductor ir的时候
添加自定义c++算子
- 定义算子
- 为指定后端添加实现
- torch.compile里面,会用到fake_mode,进行shape推演,需要op注册fake kernel, fake kernel处理shape相关的逻辑,返回一个正确shape的fake tensor
Prev
torch memory planning
Next
Ansor论文笔记
Loading...