🗒️Reading Notes

type
status
date
slug
summary
tags
category
icon
password

混合专家: Moe已成为现阶段LLM的新标准

background

  • FFN层每次激活的稀疏性:神经元数量多,但是针对一个特定的输入,激活的神经元的数量很小
  • 计算资源的稀缺性

idea

base moe

将原本的大FFN, 划分为多个小的FFN(专家),在这些FFN前面增加一个门控网络,决定本次激活哪些专家
notion image
💡
base mode会导致一个问题:每个专家都需要掌握一些通用的知识,最后可能违背专家模型的理念。

DeepSeek-MoE

引入共享专家和垂类专家的概念,共享专家总是激活,掌握通用知识,垂类专家依然由门控网络控制。
notion image

总结

优势

  • 推理效率

挑战

  • 训练稳定性
  • 推理内存需求:推理虽然每次只激活部分专家,但是依然可能需要将所有专家加载到内存中

循环优化之循环分块(loop tiling)

  • 以cache miss作为指标,分析tiling带来的优化
  • 分析数据依赖,找到可行的tiling方法。 (example:三角 tiling)
Prev
动态format的printf
Next
黑格尔
Loading...