나는 좋은 일들만 끌어당겨, 그것도 아주 많이

MoE(Mixture of Experts) by hugging face https://huggingface.co/blog/moe Mixture of Experts Explained huggingface.co위 글에서 알고자 하는 건 크게 2가지이다. 이건 내가 알고 싶은 거고 위 글쓴이가 알려주고자 하는 건 TL;DR에 있다.Experts가 어떻게 학습되는 지(GPU 자원을 어찌 활용하는지)Inference 할 때 발생하는 Tradeoff가 뭔지what is a Mixture of Experts?MoE 모델은 기본적으로 2가지 구성으로 이뤄져있는데Sparse MoE layers - 기존 Transformer 모델에서 Feed Forward Network를 그림처럼 MoE Layer로 수정하고 MoE Layer 내부에 Experts가 존재하는데 얘들이 FFN과 동일한 역할을 .. 2025.01.22
[논문 리뷰] Let's Verify Step by Step 읽고 난후그렇다면 verify를 한 각 step에 대한 edit을 하면 성능향상이 되지 않을까? 들어가기 전Review를 통해 이해한 걸 바탕으로 먼저 이야기를 하면 수학 문제를 LLM이 풀 때 Reasoning Path를 생성하면서 최종 output을 생성함, 근데 이 Reasoning Path를 Solution이라고 하며 각 Solution에서 여러가지 Reasoning Path가 진행이 됨 여기서 각각의 Reasoning Path가 옳은지 PRM이라는 Classifier를 통해서 판단을 함.그렇다면 해당 논문에서 제안하는 건 어떤 Solution에 대한 개선보다는 더 좋은 Solution을 선택하는 Classifier를 제안하는 건가? 하는 생각이 들었음그래서 사실 아직 논문을 읽기 전에 던졌던 2.. 2024.06.06
[논문 리뷰] PROMPTAGENT: STRATEGIC PLANNING WITH LARGELANGUAGE MODELS ENABLES EXPERT-LEVELPROMPT OPTIMIZATION paper lint : https://openreview.net/pdf?id=22pyNMuIoa 읽고 난 후Prompt Engineering을 Strategic Planning Promblem으로 생각해서 MCTS를 적용한다는 아이디어 자체가 인상 깊었음Appendix를 읽어야 할 것 같배경지식strategic planning : 조직이 전략이나 방향을 정의하고, 전략적 목표를 달성하기 위해 자원을 할당하는 결정을 내리는 프로세스Monte Carlo Tree Search(MCTS): Tree Search 방법들 중 하나이고 MDP를 해결하는 방법의 한 종류이다. 틱택토 게임을 예로 들면, 현재 상황에서 가능한 모든 경우의 수들을 tree 형태로 뻗어나가며 좋은 수인지 판단한 후 가장 좋은 수를 선택하.. 2024.06.01
[논문 리뷰] Dense Passage Retrieval for Open-Domain Question Answering https://arxiv.org/pdf/2004.04906.pdf Dense Passage Retrieval for Open-Domain Question Answering 요약 : 기존의 Sparse 한 Vector에서 Retrieve를 하는 게 아닌 Dense Passage Retrieval을 통해 QA를 더 효율적으로 할 수 있게 한다. 내가 이해한 바로 Dense Passage는 Docs를 Passage로 쪼개고 이 passage를 batch 단위로 나눠서 (Q, p-정답, p-오답, 오답...) 으로 한 다음에 B(B-1) 만큼 학습 데이터를 확보하도록 함 ------- https://gbdai.tistory.com/72 본 연구에서 제안하는 dense passage retriever(DPR)는 .. 2024.03.04
[논문 리뷰] FINETUNED LANGUAGE MODELS ARE ZERO-SHOTLEARNERS (FLAN) https://arxiv.org/pdf/2109.01652.pdf Abstract 본 논문은 FLAN 이라는 모델을 소개합니다. 그리고 궁극적인 목표는 LM의 Zero-shot Learning 능력을 향상시키기 위한 simple method를 찾는 것이라고 이야기합니다. 그래서 그 방법으로 instruction-tuning을 보여주며 이 학습 방법이 zero-shot 에 대한 ability를 향상시킨다고 주장합니다. 그리고 Instruction tuned 된 모델을 FLAN 이라고 소개하죠. FLAN은 137B이며 60여개의 NLP 데이터셋들로 instruction-tuned 시켰다고 합니다. instruction-tuning 은 위와 같이 NLP Tasks를 언어 모델에 지시사항과 함께 넣어 주어 학습.. 2024.01.04

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

나는 좋은 일들만 끌어당겨, 그것도 아주 많이

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역