본문 바로가기
Lecture/HuggingFace Transformer

[허깅페이스 트랜스포머 #1] Part 2 가장 다운로드 많이 된 모델 - Autoregressive Models

by 남디윤 2024. 4. 12.

패스트캠퍼스에서 60일 간의 인강 수강 이벤트로 구입했던 인강입니다.

나중에 다 올리면 인강 총 후기?를 남기겠습니다.

노션에다가 써놓고 포스팅을 안해놓은거라 빠른 시일안에 다 올리는 것을 목표로..!

 

이 인강에서는 모든 강의를 간략 설명(15%) + 코드 실습(85%) 로 구성되어 있어서 필기가 짧습니다.

모델을 구체적으로 공부하고 싶으신 분들은 인강보다는 논문을 더 보시는 것을 권장드립니다.

 

 

 

 

* 자기 회귀 모델은 시퀀스의 이전 입력에서 측정값을 가져와 시퀀스의 다음 성분을 자동으로 예측하는 기계 학습(ML) 모델의 클래스

 

 

2.1 GPT2로 문장 생성하기

  • 논문: Language Models are Unsupervised Multitask Learners
    • 비지도 다중 작업 학습기
    • GPT-2가 어떻게 훈련되었는지
  • Greedy VS Beam 접근 방식
    • Greedy
      • 각 단계에서 가장 높은 확률을 가진 단어가 선택
    • Beam
      • 가능성이 높은 빔의 수를 유지함으로써 숨겨진 높은 확률의 단어 시퀀스를 놓칠 위험을 줄임
      • 빔 검색은 그리디 접근 방식과 비교했을 때 더 나은 결과를 제공함

 

 

2.2 Transformers_XL을 사용한 레이블 분류

  • 논문: Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context
  • 구글에서 출시한 매우 유명한 트랜스포머 중 하나
  • 주요 아이디어
    • 고정된 길이의 컨텍스트를 초월하는 주의력 있는 언어모델
    • 기존 언어모델 = 고정된 길이라는 단점 가지고 있음
      • GPT-2, BERT 등
  • 트랜스포머 XL 이 해결
    • 1억 개의 토큰을 처리하기 위해 설계된 최초의 모델
    • 최대 1000개
  • 허깅페이스에 있음
    • 텍스트 분류에도 사용 가능함
  • 레이블 분류
    • 단일 레이블 분류
    • 멀티 레이블 분류
      • 여러 개의 레이블이 있는 경우

 

 

2.3 Reformer를 활용한 대략 텍스트에서의 QnA

  • 논문: REFORMER: THE EFFICIENT TRANSFORMER
  • 구글과 버클리 개발
  • 일반적인 트랜스포머와 비교하여 시간복잡도가 개선됨
    • 일반적인 어텐션을 사용하지 않고, 무작위 어텐션을 선택
    • 시간 복잡도를 O(L2)에서 O(L Log L)로 감소시켜 입력 시퀀스의 길이인 L에 대해 효율적인 처리를 가능하게 함
  • 시계열 예측, 음악, 이미지 및 비디오 생성과 같은 다른 영역에서도 활용 가능
    • 매우 방대한 양을 처리 가능
    • 시계열
      • 만약 100개의 변수와 60배의 타임 윈도우가 있다면, 입력 텍스트 또는 컨텍스트를 선택하는 것은 매우 어려울 것
  • ReformerForQuestionAnswering
    • 시퀀스 분류, 텍스트 분류 및 마스크 언어 모델에 사용 가능
    • 본 예제에서는 질문 답변에 초점

 

 

2.4 XLNET을 활용한 시퀀스 분류

  • 논문: XLNet: Generalized Autoregressive Pretraining for Language Understanding
  • Bert 다음 등장, 그 다음에 Transformer XL이 등장
  • 아키텍처
    • 일반적인 어텐션과 다르게 마스크된 어텐션 적용
    • 당시에는 새로운 개념
    • 마스크된 마스크가 모든 문제에 사용됨
  • 예제
    • 시퀀스 분류
    • SentencePiece
      • 허깅페이스 제공