[서비스 데이터 분석과 인공지능 활용] 수업을 들으면서, 팀 주제(교육)에 따라서 교수님이 논문 리스트를 주신 뒤,
팀원마다 각자 원하는 논문을 선택하여, 리뷰 발표하였습니다.
본 포스팅에서는 리뷰 발표 ppt를 적어보도록 하겠습니다.
본 논문의 포인트는
"ATS에서 Curriculum learning"의 효과입니다
모델 구조보다는 Curriculum learning에 대한 글이라고 보시면 좋을 것 같습니다.
1. Introduction
ATS (Automatic Text Scoring 작문 평가 시스템)
: 학생들의 단답형, 개방형 질문 답, 에세이 형식과 같은 장문형 답을 평가하는 시스템
ATS 연구
- 규칙 기반 방법
- 머신 러닝 기법 (수작업으로 만든 특징 입력)
- 심층 신경망 기반 (입력 텍스트에서 자동으로 특징 추출)
현 ATS 연구
- (채점 성능을 향상시키기 위해) 더 복잡하거나 목적에 적합한 설계된 모델 구조를 사용하는 방향
- 작문 평가: 경험 많은 인간 채점자도 점수 부여를 다르게 하는 경우 다수
본 연구
- 모델 훈련 과정에도 주목필요 → 커리큘럼 학습 (Curriculum Learning)
- 인간의 학습 순서와유사하게, 쉬운 것부터 어려운 것까지 순서대로 입력하여 학습시키는 방법
- (학습 중에 데이터 샘플을 무작위로 섞지 않고 특정 순서로 입력시켜 머신러닝 모델의 성능을 개선)
- RQ: 커리큘럼 학습이 ATS의성능을 향상시켜줄 수 있는가
- 학습 데이터의 상대적 난이도 결정
- pre-defined (길이, 가동성, 문법 오류, 고유 단어 수), automatic
- 난이도 측정기의 평가를 바탕으로, 어떤 데이터 부분이 모델에 특정 훈련 에포크(epoch) 동안 입력될지를 결정
- 커리큘럼 학습이 ATS 모델 성능 향상을 가져오는지
- 난이도 측정기 pre-defined, automatic의 결과 차이, pre-defined의 특징별 결과 분석
- 학습 방법 easy to hard, hard to easy 의차이
2. Related Works
Automatic Text Scoring in Education
- 수동 평가 → (ATS등장) 머신러닝 기법 → 딥러닝 기법
- 본논문
- 모델 학습 과정 최적화 필요, 커리큘럼 학습
Curriculum Learning
- 인간 교육 과정에서의 의미 있는 학습 순서를 모방하여 예측 모델을 학습시키는 전략 (쉬운 ~ 어려운)
- 컴퓨터 비전과 자연어 처리(NLP) 연구에서 다양한 모델의 성능 향상
- 데이터 분포를 조정, 저품질 ~ 고품질 등
- 안티 커리큘럼 aniti-curriculum: 어려운 ~쉬운 데이터로의 학습
- 특정 상황에서 모델의 성능을 더욱 향상
- 본논문
- 교육 분야 기존 ATS 모델의 CL 전략 필요
3. Methods
(1) Tasks and Datasets
- 단답형, 에세이형(장문형) 테스크
단답형 데이터셋 ASAS (Automatic Short Answer Scroing)
- 과학, 생물학, 영어 등다양한 과목에 대한 답변
- 평균적으로 41.7개의 단어 수
- 두명의 인간 채점자가 평가
- 첫번째 채점자 평가: ATS 모델이 예측해야 하는 점수
- 두번째 채점자 평가: 평가자들 간의 일치도 측정.
- (12.8%가 다른 점수를 받은 답변)
- *QWK(Quadratic WeightedKappa):
- 두채점자간의평가일치도를측정하는지표
- 0~1사이값,QWK값이1에가까울수록채점자간의일치도가높다는것을의미
- 알려진/예상점수와예측점수사이에서계산
에세이형 데이터셋 AES (Automatic Essay Scroing)
- 8가지 에세이형 문제에 대한 답변
- (유사) 최소 두명의 인간 채점자에 의해 평가
- (차이) 모델 예측할 점수가 모든 인간 채점자 제공 점수 기반 결정
- (37.9%가다른 점수를 받은 답변)
(2) 모델
- 단답형 ATS와에세이형 ATS로사용되는 SOTA 모델과 비교
단답형 ATS 모델
- 점수 범위 (0~3점) → 분류 문제
- BERT와 단일 분류 계층 결합 접근 방식 + Finetuning
에세이형 ATS 모델
- 회귀 모델
- BERT 모델 + 에세이 답변에서 Features 추출 결합
- Features: 답변의 길이, 단어 수준, 가독성 , 구문적 특성
(3) 난이도 측정기 (difficulty measurer)
- 학습 데이터의 상대적 난이도 결정
Pre-defined
- 네개의 특성 난이도 측정기 (인간 측정x)
- 길이: 텍스트의 길이 지표, 길수록 어려움
- Distinct-1: 답변에 포함된 고유 단어의 수지표, 고유 단어가 많을수록 어려움
- 가독성: *Flesch Reading Ease 점수 바탕으로 생성, 0~100 범위(0에 가까울수록 어려움),
- 오류: 문법 오류와 철자 오류의 수지표, 오류가 많을수록 어려움
- *Flesch Reading Ease
- 문장길이와단어길이를사용하여텍스트의가독성을평가
- Score=206.835−(1.015×ASL)−(84.6×ASW)
- ASL(AverageSentenceLength):평균문장길이,ASW(AverageSylables perWord):평균 음절 수
Automatic
- 동적으로 데이터 샘플을 선택하는 자동 난이도 측정기를 추가로 사용 (훈련 스케줄러와의 조합을 위해)
- 쉬운 샘플과 어려운 샘플로 구분
- r값(쉬운 샘플일 확률과 어려운 샘플일 확률의 비율) 조절
- Static
- r을학습 에포크 동안 동일한 값으로 설정
- Adaptive
- 현재 t번째 에포크에서의 r 값은 이전 에포크에서 쉬운 샘플과 어려운 샘플의 수에 기반
- 쉽거나 어려운 샘플이 상대적으로 많을 때, 그반대의 샘플을 더자주 선택하는 경향
(4) 학습 스케줄러 (training scheduler)
- Pre-defined 난이도 측정기와 Automatic 난이도 측정기를 활용하여 훈련 스케줄러를 설계
- 선형 연속 스케줄러의 한형태
- 학습 에포크 t를 스칼라 값λ∈ (0, 1]에 매핑
- λ 비율만큼의 가장 쉬운 샘플을 사용하여 t번째 에포크에서 모델을 훈련
- (쉬운, 어려운 샘플을 학습시킬 에폭의 비율)
- CL: easy-to-hard
- Anti-CL: hard-to-easy
- λ 비율만큼의 가장 어려운 샘플을 사용하여 t번째 에포크에서 모델을 훈련
(5) Experimental Setup
- Feature Engineering
- 길이 기반, 구문적, 단어 수준, 가독성 등네가지 유형의 에세이 수준 특성 추출 (AES 에활용), 표준화
- Baselines
- (i) 커리큘럼 학습 전략을 적용하지 않은 단답형 ATS와에세이형 ATS 모델의 기본 버전
- (i) 학습 에포크마다 샘플의 비율은 커리큘럼 학습 전략과 같지만 샘플은 데이터셋에서 무작위로 선택
- Model Implementation
- bert-base-cased 인코더 기반
- 단답형 ATS 는분류 층을 추가, 에세이형 ATS는회귀층을 추가
- 에세이형 ATS는평균 제곱 오차 (MSE) 손실 함수, 학습 샘플의 점수는 [0, 1]로정규화
- Model Training
- 학습, 검증, 테스트 세트 70%:15%:15% 비율
- 배치 크기 16, 학습 에포크 5, 학습률 {2e-5, 3e-5, 5e-5} 선택, 옵티마이저 Adam
- Model Evaluation
- Quadratic Weighted Kappa (QWK) 지표 사용
- ATS 모델에 의해 예측된 점수와 실제 점수 간의 일치도를 측정
4. Results
단답형 ATS에대한 결과
- 랜덤 커리큘럼은 Baseline w/o 커리큘럼 학습(CL)에 비해 개선되지 않음
- Pre-defined, Automatic 난이도 측정기를 커리큘럼 학습(CL)에 활용했을 때더좋은 성능
- 특정 프롬프트(질문 2, 3, 4)에 대해더효과적 (어려운 경우더효과적)
- 가독성 측정기가 다른 측정기들보다 우수한 성능
- 커리큘럼 학습과 안티 커리큘럼 학습 사이에 큰차이가 없음
에세이형 ATS에대한 결과
- (단답형과 동일) 랜덤 커리큘럼은 Baseline w/o 커리큘럼 학습(CL)에 비해 개선되지 않음
- (단답형과 동일) Pre-defined, Automatic 난이도 측정기를 커리큘럼 학습(CL)에 활용했을 때더좋은 성능
- (단답형과 동일) 특정 프롬프트(질문 1, 3, 4, 6)에대해 더좋은 성능
- (단답형과 다르게) 어려운 경우 효과가 미비
- 오류 측정기가 다른 측정기들보다 우수(robust)한 성능
- (단답형과 동일) 커리큘럼 학습과 안티 커리큘럼 학습 사이에 큰차이가 없음
5. Conclusions
교육 분야에서의 ATS (작문 평가 시스템)의 성능을 향상 시키기 위해 커리큘럼 학습(CL) 전략의 효과를 조사
- 데이터 샘플의 난이도 측정
- 4개의 pre-defined, automatic
- 쉬운 것에서 어려운 것으로, 어려운 것에서 쉬운 것으로의 두가지 훈련 패러다임
- 두개의 다른 데이터셋으로 단답형 ATS, 에세이형 ATS 평가
향후 연구
- 학습 과정에서 ATS 모델의 변화 분석 (다양한 훈련 에포크에서 입력 텍스트에 주어진 주의 가중치를 분석)
- 발전된 스케줄러 사용 (본연구의 경우 단일 유형의 훈련 스케줄러만을 조사)