Archive.

GPT-3의 6배 규모 - Google의 TRILLION 내부분석 본문

Marketing Science

GPT-3의 6배 규모 - Google의 TRILLION 내부분석

Jin_x 2021. 1. 28. 12:39

구글의 스위치 트랜스포머 모델은 딥 러닝 영역에서 차세대 혁신이 될 수 있다.

OpenAI의 GPT-3은 틀림없이 지난 몇 년 동안 만들어진 가장 유명한 딥 러닝 모델이다. GPT-3에 대해 가장 인상적인 것 중 하나는 크기이다. 어떤 맥락에서 GPT-3은 더 많은 매개 변수가있는 GPT-2에 불과하다. 1,750 억 개의 매개 변수를 가진 GPT-3는 가장 큰 이전 모델보다 약 4 배 더 컸다.

그 다음 GPT-3보다 6 배 더 큰 모델에 대해 어떻게 생각하는가?

 

이것이 바로 Google Research 팀이 새로운 Switch Transformer 아키텍처로 달성한 성과이다.

새로운 모델은 헤아릴 수없는 1.6 조개의 매개 변수를 갖추고있어 GPT-3보다 효과적으로  6 배 더 커진다 .

1.6 조 개의 매개 변수는 확실히 인상적이지만 Switch Transformer 아키텍처의 가장 인상적인 기여는 아닙니다. 이 새로운 모델을 통해 Google은 본질적으로 간단하고 계산적으로 효율적인 방식으로 변환기 모델의 매개 변수 수를 최대화하는 방법을 공개한다. GPT-3과 같은 트랜스포머 모델은 거대 할뿐만 아니라 계산 비용이 많이 들기 때문에 주류 시나리오에서 채택이 제한된다.

 


스위치 트랜스포머 아키텍처의 주요 수정 사항은 초대형 조밀 모델 대신 희소 모델 학습을 용이하게하는 MoE (Mixture of Experts) 라우팅 계층 도입을 기반으로한다. 이것은 읽는 것만 큼 혼란스럽지 않으므로 설명해 보겠다.

 

일반적인 트랜스포머 아키텍처는 유명한 어텐션 레이어와 고밀도 피드 포워드 네트워크로 구성된다. 무엇보다도 고밀도 계층은 트랜스포머 모델 학습에 많은 비용이 든다. Google의 Switch Transformer는 해당 계층을 Switch FFN 계층이라고 부르는 것으로 대체 할 것을 제안한다. 이 계층은 입력 토큰을 처리하고 이를 처리 할 더 작은 피드 포워드 네트워크를 결정한다. Switch FFN 계층에는 세 가지 주요 이점이 있다.

 

  1. 라우터 계산은 단일 전문가에게만 라우팅되므로 매우 작다.

     

  2. 각 엑스퍼트 네트워크의 용량은 관리 가능한 상태로 유지 될 수 있다.

     

  3. 라우터 구현은 매우 간단하다.


새로운 최적화를 통해 Google은 스위치 트랜스포머 모델을 놀라운 1 조 6 천억 개의 매개 변수로 훈련시킬 수있었다! 

이전 아키텍처에 비해 훈련 속도는 7배 향상되었다.

기적적으로 스위치 트랜스포머 릴리스는 레이더 아래에 남아 있다. 

어떻게 든 그것은 전체 트랜스포머 움직임을 유발하는 원래 BERT 논문을 생각나게 한다. 
그러나 GPT-3에 대한 과대 광고가 앞으로있을 일에 대한 암시라면, Switch Transformer를 사용한 새로운 이정표를 주시하라.

 

[ref] www.kdnuggets.com/2021/01/google-trillion-parameter-switch-transformer-model.html

Comments