Published onAugust 1, 2024MoE 中的 TopK 算法为什么要添加噪音?moellmdeeplearning介绍了MoE(Mixture of Experts)模型中的TopK算法,解释了为什么要在其中添加噪音。
Published onJanuary 11, 2024浅聊 Mixtral-8x7B 的一些亮点mistralmoe本文讨论了Mistral-8x7B的主要特点,包括其结构、性能以及一些创新技术如SWA和GQA。