🗒️Reading Notes
type
status
date
slug
summary
tags
category
icon
password
混合专家: Moe已成为现阶段LLM的新标准
background
- FFN层每次激活的稀疏性:神经元数量多,但是针对一个特定的输入,激活的神经元的数量很小
- 计算资源的稀缺性
idea
base moe
将原本的大FFN, 划分为多个小的FFN(专家),在这些FFN前面增加一个门控网络,决定本次激活哪些专家
base mode会导致一个问题:每个专家都需要掌握一些通用的知识,最后可能违背专家模型的理念。
DeepSeek-MoE
引入共享专家和垂类专家的概念,共享专家总是激活,掌握通用知识,垂类专家依然由门控网络控制。
总结
优势
- 推理效率
挑战
- 训练稳定性
- 推理内存需求:推理虽然每次只激活部分专家,但是依然可能需要将所有专家加载到内存中
循环优化之循环分块(loop tiling)
- 以cache miss作为指标,分析tiling带来的优化
- 分析数据依赖,找到可行的tiling方法。 (example:三角 tiling)
Prev
动态format的printf
Next
黑格尔
Loading...