본문 바로가기

Lecture/HuggingFace Transformer

[허깅페이스 트랜스포머 #1] Part 2 가장 다운로드 많이 된 모델 - Autoregressive Models

by 남디윤 2024. 4. 12.

패스트캠퍼스에서 60일 간의 인강 수강 이벤트로 구입했던 인강입니다.

나중에 다 올리면 인강 총 후기?를 남기겠습니다.

노션에다가 써놓고 포스팅을 안해놓은거라 빠른 시일안에 다 올리는 것을 목표로..!

이 인강에서는 모든 강의를 간략 설명(15%) + 코드 실습(85%) 로 구성되어 있어서 필기가 짧습니다.

모델을 구체적으로 공부하고 싶으신 분들은 인강보다는 논문을 더 보시는 것을 권장드립니다.

* 자기 회귀 모델은 시퀀스의 이전 입력에서 측정값을 가져와 시퀀스의 다음 성분을 자동으로 예측하는 기계 학습(ML) 모델의 클래스

2.1 GPT2로 문장 생성하기

논문: Language Models are Unsupervised Multitask Learners
- 비지도 다중 작업 학습기
- GPT-2가 어떻게 훈련되었는지
Greedy VS Beam 접근 방식
- Greedy
  - 각 단계에서 가장 높은 확률을 가진 단어가 선택
- Beam
  - 가능성이 높은 빔의 수를 유지함으로써 숨겨진 높은 확률의 단어 시퀀스를 놓칠 위험을 줄임
  - 빔 검색은 그리디 접근 방식과 비교했을 때 더 나은 결과를 제공함

2.2 Transformers_XL을 사용한 레이블 분류

논문: Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context
구글에서 출시한 매우 유명한 트랜스포머 중 하나
주요 아이디어
- 고정된 길이의 컨텍스트를 초월하는 주의력 있는 언어모델
- 기존 언어모델 = 고정된 길이라는 단점 가지고 있음
  - GPT-2, BERT 등
트랜스포머 XL 이 해결
- 1억 개의 토큰을 처리하기 위해 설계된 최초의 모델
- 최대 1000개
허깅페이스에 있음
- 텍스트 분류에도 사용 가능함
레이블 분류
- 단일 레이블 분류
- 멀티 레이블 분류
  - 여러 개의 레이블이 있는 경우

2.3 Reformer를 활용한 대략 텍스트에서의 QnA

논문: REFORMER: THE EFFICIENT TRANSFORMER
구글과 버클리 개발
일반적인 트랜스포머와 비교하여 시간복잡도가 개선됨
- 일반적인 어텐션을 사용하지 않고, 무작위 어텐션을 선택
- 시간 복잡도를 O(L2)에서 O(L Log L)로 감소시켜 입력 시퀀스의 길이인 L에 대해 효율적인 처리를 가능하게 함
시계열 예측, 음악, 이미지 및 비디오 생성과 같은 다른 영역에서도 활용 가능
- 매우 방대한 양을 처리 가능
- 시계열
  - 만약 100개의 변수와 60배의 타임 윈도우가 있다면, 입력 텍스트 또는 컨텍스트를 선택하는 것은 매우 어려울 것
ReformerForQuestionAnswering
- 시퀀스 분류, 텍스트 분류 및 마스크 언어 모델에 사용 가능
- 본 예제에서는 질문 답변에 초점

2.4 XLNET을 활용한 시퀀스 분류

논문: XLNet: Generalized Autoregressive Pretraining for Language Understanding
Bert 다음 등장, 그 다음에 Transformer XL이 등장
아키텍처
- 일반적인 어텐션과 다르게 마스크된 어텐션 적용
- 당시에는 새로운 개념
- 마스크된 마스크가 모든 문제에 사용됨
예제
- 시퀀스 분류
- SentencePiece
  - 허깅페이스 제공

티스토리툴바