본문 바로가기
[논문 리뷰] MULTITASK PROMPTED TRAINING ENABLESZERO-SHOT TASK GENERALIZATION (T0) https://arxiv.org/pdf/2110.08207.pdf Abstract 명시적 학습에 의해 zero shot 생성이 유도 될 수 있을까? 라는 질문에서 출발해서 다양한 Task를 다루는 멀티 task 혼합물을 encoder-decoder 모델에 fine-tune 시킴으로써 증명했다. Introduction 그 모델이 T0라는 모델이다. 모델의 구조는 추후 설명하겠지만 위와 같이 다양한 multi-task를 학습 시킴으로써 아래와 같이 학습할 때는 본적 없는 NLI에 대해 답을 할 수 있도록 하는 것이 목적이겠다. 참고로 모델이 pretrain 될 때 zero shot을 위한 정보들이 모델에 학습된다는 이야기도 하고 있다. 그게 암묵적인 가정이라고 하신다. Related Work *Multita.. 2024. 1. 3.
[경량화 #1] SparseGPT: Massive Language Models Can Be Accurately Pruned in One-Shot 리뷰 *논문 내용 뿐 아니라 필자의 주관적인 내용 + 다양한 출처의 내용이 들어가 있는 리뷰입니다. Abstract GPT generative pretrained transformer family 모델에 최소 50% 이상을 sparse하게 가지치기했다고 한다. 재학습이 없고 sparseGPT라는 새로운 pruning method를 사용했다고 한다. 이 메서드를 오픈 소스 모델에 적용을 시켰고 perplexity 에서 무시할 ㅅ구 없는 성능 향상을 보였다고 한다. 1. Introduction LLMs 이 GPT 방법으로 가면서 굉장한 연산 비용을 요구하게 되었다. 그래서 compression이 대두 되었고 그 중 하나가 Pruning 방법이다. Pruning에는 Unstructured Pruning 과 Stru.. 2024. 1. 3.
CS224N Language Models and Recurrent Neural Networks (win 2021) 공부하면서 스터디 모임을 하는 동안 배웠고 가져가면 좋겠다고 느낀 부분들을 정리하도록 하겠습니다. 추후 공부해야 할 내용 ( torch 를 다루는 부분 입니다) https://colab.research.google.com/drive/1Z6K6nwbb69XfuInMx7igAp-NNVj_2xc3?usp=sharing CS224N PyTorch Tutorial.ipynb Colaboratory notebook colab.research.google.com Non-linear function 즉, activation function으로 인해 선형이었던 그래프는 비선형성을 가지게 되고 더 많은 데이터를 더 정확하게 구분할 수 있게 되었습니다. (*비선형함수 : 전체의 구간에서 하나로 설명이 안된다. + 신경망의 .. 2023. 10. 11.
CS224N Dependency Parsing (win 2021) 오랜만에 글을 쓰네요.. 요즘 정신이 없어서 ㅎㅎ... 본 포스팅은 cs224n 스터디를 하면서 필자가 공부한 내용을 기록하는 데에 의의가 있습니다! 혹시 틀리거나 보충하고 싶으신 (궁금하거나!) 내용은 댓글로 넣어주시면 대댓하겠습니다! cs224n 4번째 강의는 Dependency Parsing이라는 주제를 다루며 각 문장의 문법적인 구성이나 구문을 분석하는 과정인 pasing을 다루고 있습니다. Pasing - 각 문장의 문법적인 구성 또는 구문을 분석하는 과정을 의미합니다. - 이를 통해 구문 분석 트리를 구성하는 과정도 포함되어 있습니다. Constituency Parsing - 문장 분석을 하는 방법 중 하나로 본 강의에서는 context-free grammars 와 같다고 합니다. (*CFGs.. 2023. 10. 6.