MoE(Mixture of Experts) by hugging face https://huggingface.co/blog/moe Mixture of Experts Explained huggingface.co위 글에서 알고자 하는 건 크게 2가지이다. 이건 내가 알고 싶은 거고 위 글쓴이가 알려주고자 하는 건 TL;DR에 있다.Experts가 어떻게 학습되는 지(GPU 자원을 어찌 활용하는지)Inference 할 때 발생하는 Tradeoff가 뭔지what is a Mixture of Experts?MoE 모델은 기본적으로 2가지 구성으로 이뤄져있는데Sparse MoE layers - 기존 Transformer 모델에서 Feed Forward Network를 그림처럼 MoE Layer로 수정하고 MoE Layer 내부에 Experts가 존재하는데 얘들이 FFN과 동일한 역할을 .. 2025. 1. 22. 이전 1 다음