본문 바로가기
AI 관련/논문 리뷰

[논문 리뷰] MULTITASK PROMPTED TRAINING ENABLESZERO-SHOT TASK GENERALIZATION (T0)

by 세계 최고의 AI Engineer_naknak 2024. 1. 3.

https://arxiv.org/pdf/2110.08207.pdf

 

 

Abstract

명시적 학습에 의해 zero shot 생성이 유도 될 수 있을까? 라는 질문에서 출발해서 다양한 Task를 다루는 멀티 task 혼합물을 encoder-decoder 모델에 fine-tune 시킴으로써 증명했다.

 

Introduction

 

그 모델이 T0라는 모델이다. 모델의 구조는 추후 설명하겠지만 위와 같이 다양한 multi-task를 학습 시킴으로써 아래와 같이 학습할 때는 본적 없는 NLI에 대해 답을 할 수 있도록 하는 것이 목적이겠다.

참고로 모델이 pretrain 될 때 zero shot을 위한 정보들이 모델에 학습된다는 이야기도 하고 있다. 그게 암묵적인 가정이라고 하신다.

 

Related Work

*Multitask Learning 이란 다양한 데이터셋을 모델에 학습시키는 것을 의미하는데 하나의 큰 데이터셋을 학습시킨다면 그 큰 데이터셋에 여러 종류의 Task를 포함하고 있기 때문에 Implicit ML이라고 하며, 다양한 Task를 명확하게 정의해서 학습을 시킨다면 Explicit ML이라고 한다.

 

Natural Language Prompting이라는 개념이 나오는데 이건 NLP Task를 자연스러운 언어 응답 형식으로 재구조화하는 것을 의미한다. 예를 들어 "prompt:다음질문에 대한 답을 하시오 choice :" 같이 Task를 모델에게 자연어 형식으로 설명해주는 것이라고 이해하면 좋겠다.

다만 이 prompt가 어떻게 모델의 zero shot generation에 영향을 미치는지는 알 수 없지만 경험적으로 영향을 준다고 한다.

 

 

Measuring Generation to Held-out Tasks

*Held-out tasks는 모델을 평가하기 위해 특별히 정의된 Task를 의미한다.

NLP에서 특정 작업이나 기술을 명확히 구분하는 것은 어렵다고 말하며 문헌의 관습에 기반하여 필요한 기술들을 정의하지 않고 task format에 따라 저자들만의 task 분류체계를 구성했다고 한다.

 

 

그 분류체계가 위와 같으며 노란색은 학습시킨 데이터셋, 초록색은 평가를 위한 데이터셋이라고 생각하면 되겠다.

 

 

A Unified Prompt Format

모든 데이터는  zero-shot 실험을 위해 자연어 prompt로 모델에 주어진다. 그런데 데이터셋이 많으므로 사람을 구하여 저자들의 의도에 맞도록 prompt template system을 만들었다고 한다.

 

그 예시가 위와 같다.

자세한 내용은 다루지 않겠다.

 

 

Experimental Setup

 

기존 T5는 input data에서 제거된 Token만 생성하므로 자연스러운 문장 생성이 불가했다. 그래서 LM-adapted T5를 사용했다고 한다. 

여기에 위에서 봤던 노란색을 학습  시킨 것이 T0이며 더 많은 데이터셋을 학습 시킨 것이 T0+, T0++라고 할 수 있겠다.

input, target sequences 를 1024와 256 tokens로 정했고 1e-3의 learning rate와 0.1의 drop rate 를 사용하였다.

 

Results

Generalization to Held-Out Tasks

 

메인 모델인 T0가 성능이 좋다는 걸 보여주며 다만 HellaSwag에선 성능이 낮게 나온다고 한다.

 

PROMPT ROBUSTNESS

 

여기서 가저가야 하는 인사이트는 데이터셋 마다 prompts의 수가 많을수록 더 robust한 generlization 을 이끌었다고 한다. 다만 prompt는 고정되어 있고 dataset만 증가시켰을 경우 prompts의 wording에 대한 robust를 만들어내지 못했다고 한다. 제가 이해한 바로는 데이터셋만 증가시켜서 모델을 학습 했을 때 다양한 프롬프트에 대한 모델의 성능을 robust하게 만들지 못했다는 것인듯 합니다.

 

Discussion

T0와 비슷한 Flan이라는 모델이 있는데 일단 얘는 decoder only 모델이지만 137B 크기의 T0(11B)보다 10배 이상 큰 모델이 있는데 Flan과 비교하면서 T0가 성능이 더 좋은 이유에 대해서 추측합니다.

1. encoder-decoder 모델을 사용한다. 

 이 모델은 masked language modeling 으로 pretrained된다.그리고 multitask mixture로 fine-tune 된다.

2. 본인들의 prompts가 질적으로 다양하다.

 

이러한 이유에서 더 좋은 성능을 낸다고 하지만 future work로 조사가 더 필요하다고 이야기 합니다.

 

 

Conclusion

그래서 저자들은 multitask prompted training으로 강력한 zero-shot generalization이 가능하다는 것을 증명했다고 한다.

제 생각으로는 상대적으로 작은 크기의 모델에 multitask prompted training 즉, GPT와 같이 unsupervised learning이 아닌 supervised learning으로도 zero-shot generalization이 가능하다는 걸 증명하고 더 성능이 좋다는 것이 novelty하다고 느꼈고 흥미로웠습니다. 

 

 

이상으로 T0:Multitask Prompted Training Enables Zero-Shot Task Generalization 리뷰를 마치겠습니다.

댓글