본문 바로가기
AI 관련/논문 리뷰

[논문 리뷰] Sequence to Sequence Learning with Neural Networks

by 세계 최고의 AI Engineer_naknak 2023. 8. 15.

이제부터 리뷰는 간단하게 작성하려고 합니다

읽고 난 후

상대적으로 예전에 나왔고 Transformer 논문에 비해 쉬워서 빨리 읽을 수 있었습니다

이 논문에서 가장 인상 깊었던 건 입력 문장을 뒤집음으로써 성능을 향상시켰다는 것인데 사실 아직 왜 입력 문장을 뒤집는다고 성능이 향상되는지 정확하게 모르겠지만 이런 간단한 방법으로도 성능을 향상시킬 수 있다는 게 그저 놀라울 따름이었습니다. 이상으로 Seq2Seq 관련 논문 리뷰를 마치겠습니다

 

Abstract

In this paper, we present a general end-to-end approach to sequence learning that makes minimal assumptions on the sequence structure. Our method uses a multilayered Long Short-Term Memory (LSTM) to map the input sequence to a vector of a fixed dimensionality, and then another deep LSTM to decode the target sequence from the vector

이 부분이 제일 중요하다고 생각했습니다

기존에는 DNNs로 seq2seq를 짜야했는데 그게 불가능하다고 하면서 LSTM을 이용해서 Seq2Seq를 처리하는 새로운 모델을 제시한다고 합니다

 

Introduction

DNNs는 훌륭하지만 한계가 명확하다고 합니다. 그 한계는 고정된 차원의 벡터로만 sequence를 표현하는게 가능하다고 하네요.

그래서 이런 문제해결을 위해 두 가지 LSTM을 사용한 모델을 제안합니다. 

하나의 LSTM은 input sequence에 대한 fixed 차원 vector representation을 얻고 다른 LSTM으로 이 vector를 input 으로 output sequence 를 만드는 모델이라고 하네요.

 

The model

제안된 모델의 차별성은 3가지 입니다.

1. 2개의 다른 LSTM을 사용함으로써 파라미터의 수는 증가하지만 무시 가능한 계산 cost라고 합니다

2. 얕은 LSTM을 사용하지 않고 4층의 LSTM을 사용합니다

3. 문장의 순서를 뒤집습니다(input sequence만)

그래서 LSTM에서 접두사를 확장시켜서 target sentence와 비교, 정답일 확률을 구해서 해당 확률에서 가장 높은 확률을 가진 단어만 가지고 나머지는 버리는 방식으로 진행이 됩니다.

 

Experiments

3.2 Decoding and Rescoring

본 모델에서는 left-to-right beam search decoder를 사용합니다. 찾아보니 beam search는 휴리스틱 검색 알고리즘을 활용한 것으로 beam이라는 것의 후보 만을 탐색해서 불확실한 상황에서 효율적으로 정답을 찾는 seq2seq에서 자주 사용되는 방법이라고 합니다. 그래서 B만큼의 후보를 정합니다. 그 다음에 부분적인 가설을 탐색하는 데 예를 들어 전체문장이 "hi my name is naknak"이라면 부분적 가설을 "hi my name" 이런식으로 계속 확장해 나갑니다. 그리고 이거에 대해서 가장 가능성 있는 번역을 확률적으로 계산해서 가장 높은 후보군만 남게 하는 방식으로 진행됩니다.

 

3.3 Reversing the Source Sentences

문장을 뒤집는다고 했는데 이 부분이 이해가 잘 안 갔습니다.

입력 문장을 뒤집으면 평균적으로 입력 문장과 출력 문장(target) 서로 대응 되는 단어의 거리가 가까워지면서 SGD에서 역전파할 때도 좋고 이렇게 저렇게 좋아서 성능이 향상된다고 합니다.

 

 

Conclusion

결론적으로 여러가지가 있지만 입력 문장의 순서를 바꿈으로써 단기 의존성이 많은 문제를 찾아 사용하면 학습 문제가 쉬워지는 것이다. 라고 하네요. (단기 의존성 : 시퀀스 내 근접한 요소들 간의 연결성이나 관계)

 

그리고 다른 seq2seq challenging에서도 잘될 가능성이 있다고 이야기하면서 논문이 마무리 됩니다.

 

 

 

 

댓글