본문 바로가기
[논문 리뷰] MULTITASK PROMPTED TRAINING ENABLESZERO-SHOT TASK GENERALIZATION (T0) https://arxiv.org/pdf/2110.08207.pdf Abstract 명시적 학습에 의해 zero shot 생성이 유도 될 수 있을까? 라는 질문에서 출발해서 다양한 Task를 다루는 멀티 task 혼합물을 encoder-decoder 모델에 fine-tune 시킴으로써 증명했다. Introduction 그 모델이 T0라는 모델이다. 모델의 구조는 추후 설명하겠지만 위와 같이 다양한 multi-task를 학습 시킴으로써 아래와 같이 학습할 때는 본적 없는 NLI에 대해 답을 할 수 있도록 하는 것이 목적이겠다. 참고로 모델이 pretrain 될 때 zero shot을 위한 정보들이 모델에 학습된다는 이야기도 하고 있다. 그게 암묵적인 가정이라고 하신다. Related Work *Multita.. 2024. 1. 3.
[경량화 #1] SparseGPT: Massive Language Models Can Be Accurately Pruned in One-Shot 리뷰 *논문 내용 뿐 아니라 필자의 주관적인 내용 + 다양한 출처의 내용이 들어가 있는 리뷰입니다. Abstract GPT generative pretrained transformer family 모델에 최소 50% 이상을 sparse하게 가지치기했다고 한다. 재학습이 없고 sparseGPT라는 새로운 pruning method를 사용했다고 한다. 이 메서드를 오픈 소스 모델에 적용을 시켰고 perplexity 에서 무시할 ㅅ구 없는 성능 향상을 보였다고 한다. 1. Introduction LLMs 이 GPT 방법으로 가면서 굉장한 연산 비용을 요구하게 되었다. 그래서 compression이 대두 되었고 그 중 하나가 Pruning 방법이다. Pruning에는 Unstructured Pruning 과 Stru.. 2024. 1. 3.
[논문 리뷰] Neural Machine Translation by Jointly Learning to Align and Translate 읽고 난 후 Transformer 논문이 발표되기 전 Attention 개념을 적용시켰다는 것이 놀라웠습니다. Abstraction 기존 NMT(Neural Machine Translation) 은 고정된 길이의 vector를 사용해서 병목현상이 발생 그래서 긴 문장에 대한 번역 성능이 좋지않다. 그래서 decoder에서 하나의 결과를 만들어 낼 때마다 입력문장을 순차적으로 탐색하고 가장 관련있는 영역을 적용해서 다시 target 문장을 만든다. 그래서 가변적인 context vector 생성이 가능해진다. - 이때 Attention에 대한 개념이 등장한듯 싶습니다. RNN Encoder-Decoder Encoder : 입력값 Xt 에 대해서 ht를 순,역방향으로 구하고 이걸 concate 시킵니다. 이.. 2023. 8. 29.
[논문 리뷰] Sequence to Sequence Learning with Neural Networks 이제부터 리뷰는 간단하게 작성하려고 합니다 읽고 난 후 상대적으로 예전에 나왔고 Transformer 논문에 비해 쉬워서 빨리 읽을 수 있었습니다 이 논문에서 가장 인상 깊었던 건 입력 문장을 뒤집음으로써 성능을 향상시켰다는 것인데 사실 아직 왜 입력 문장을 뒤집는다고 성능이 향상되는지 정확하게 모르겠지만 이런 간단한 방법으로도 성능을 향상시킬 수 있다는 게 그저 놀라울 따름이었습니다. 이상으로 Seq2Seq 관련 논문 리뷰를 마치겠습니다 Abstract In this paper, we present a general end-to-end approach to sequence learning that makes minimal assumptions on the sequence structure. Our me.. 2023. 8. 15.