본문 바로가기
Paper

[논문 읽기 #4]On the effectiveness of curriculum learning in educational text scoring

by 남디윤 2024. 4. 24.

 

 

 

[서비스 데이터 분석과 인공지능 활용] 수업을 들으면서, 팀 주제(교육)에 따라서 교수님이 논문 리스트를 주신 뒤,

팀원마다 각자 원하는 논문을 선택하여, 리뷰 발표하였습니다.

본 포스팅에서는 리뷰 발표 ppt를 적어보도록 하겠습니다.

 

본 논문의 포인트는

"ATS에서 Curriculum learning"의 효과입니다

모델 구조보다는 Curriculum learning에 대한 글이라고 보시면 좋을 것 같습니다.

 

 

 

1. Introduction

ATS (Automatic Text Scoring 작문 평가 시스템)
: 학생들의 단답형, 개방형 질문 답, 에세이 형식과 같은 장문형 답을 평가하는 시스템

 

ATS 연구

  • 규칙 기반 방법
  • 머신 러닝 기법 (수작업으로 만든 특징 입력)
  • 심층 신경망 기반 (입력 텍스트에서 자동으로 특징 추출)

 

현 ATS 연구

  • (채점 성능을 향상시키기 위해) 더 복잡하거나 목적에 적합한 설계된 모델 구조를 사용하는 방향
  • 작문 평가: 경험 많은 인간 채점자도 점수 부여를 다르게 하는 경우 다수

본 연구

  • 모델 훈련 과정에도 주목필요 →  커리큘럼 학습 (Curriculum Learning)
    • 인간의 학습 순서와유사하게, 쉬운 것부터 어려운 것까지 순서대로 입력하여 학습시키는 방법
    • (학습 중에 데이터 샘플을 무작위로 섞지 않고 특정 순서로 입력시켜 머신러닝 모델의 성능을 개선)
  • RQ: 커리큘럼 학습이 ATS의성능을 향상시켜줄 수 있는가

 

커리큘럼 학습 구성 요소
(1) 난이도 측정기 (difficulty measurer)
  • 학습 데이터의 상대적 난이도 결정
  • pre-defined (길이, 가동성, 문법 오류, 고유 단어 수), automatic
(2) 학습 스케줄러 (training scheduler)
  • 난이도 측정기의 평가를 바탕으로, 어떤 데이터 부분이 모델에 특정 훈련 에포크(epoch) 동안 입력될지를 결정

 

커리큘럼 학습 방법:
easy to hard(curr), hard to easy(anti-curr)

 

주요 포인트
  • 커리큘럼 학습이 ATS 모델 성능 향상을 가져오는지
  • 난이도 측정기 pre-defined, automatic의 결과 차이, pre-defined의 특징별 결과 분석
  • 학습 방법 easy to hard, hard to easy 의차이

 

 

2. Related Works

Automatic Text Scoring in Education

  • 수동 평가 → (ATS등장) 머신러닝 기법 → 딥러닝 기법
  • 본논문
    • 모델 학습 과정 최적화 필요, 커리큘럼 학습

 

Curriculum Learning

  • 인간 교육 과정에서의 의미 있는 학습 순서를 모방하여 예측 모델을 학습시키는 전략 (쉬운 ~ 어려운)
  • 컴퓨터 비전과 자연어 처리(NLP) 연구에서 다양한 모델의 성능 향상
    • 데이터 분포를 조정, 저품질 ~ 고품질 등
  • 안티 커리큘럼 aniti-curriculum: 어려운 ~쉬운 데이터로의 학습
    • 특정 상황에서 모델의 성능을 더욱 향상
  • 본논문
    • 교육 분야 기존 ATS 모델의 CL 전략 필요

 

 

3. Methods

(1) Tasks and Datasets

  • 단답형, 에세이형(장문형) 테스크

 

단답형 데이터셋 ASAS (Automatic Short Answer Scroing)

  • 과학, 생물학, 영어 등다양한 과목에 대한 답변
  • 평균적으로 41.7개의 단어 수
  • 두명의 인간 채점자가 평가
    • 첫번째 채점자 평가: ATS 모델이 예측해야 하는 점수
    • 두번째 채점자 평가: 평가자들 간의 일치도 측정.
    • (12.8%가 다른 점수를 받은 답변)
      • *QWK(Quadratic WeightedKappa):
      • 두채점자간의평가일치도를측정하는지표
      • 0~1사이값,QWK값이1에가까울수록채점자간의일치도가높다는것을의미
      • 알려진/예상점수와예측점수사이에서계산

 

에세이형 데이터셋 AES (Automatic Essay Scroing)

  • 8가지 에세이형 문제에 대한 답변
  • (유사) 최소 두명의 인간 채점자에 의해 평가
  • (차이) 모델 예측할 점수가 모든 인간 채점자 제공 점수 기반 결정
    • (37.9%가다른 점수를 받은 답변)

 

(2) 모델

  • 단답형 ATS와에세이형 ATS로사용되는 SOTA 모델과 비교

 

단답형 ATS 모델

  • 점수 범위 (0~3점) → 분류 문제
  • BERT와 단일 분류 계층 결합 접근 방식 + Finetuning

 

에세이형 ATS 모델

  • 회귀 모델
  • BERT 모델 + 에세이 답변에서 Features 추출 결합
    • Features: 답변의 길이, 단어 수준, 가독성 , 구문적 특성

 

(3) 난이도 측정기 (difficulty measurer)

  • 학습 데이터의 상대적 난이도 결정

 

Pre-defined

  • 네개의 특성 난이도 측정기 (인간 측정x)
  • 길이: 텍스트의 길이 지표, 길수록 어려움
  • Distinct-1: 답변에 포함된 고유 단어의 수지표, 고유 단어가 많을수록 어려움
  • 가독성: *Flesch Reading Ease 점수 바탕으로 생성, 0~100 범위(0에 가까울수록 어려움),
  • 오류: 문법 오류와 철자 오류의 수지표, 오류가 많을수록 어려움
    • *Flesch Reading Ease
    • 문장길이와단어길이를사용하여텍스트의가독성을평가
    • Score=206.835−(1.015×ASL)−(84.6×ASW)
    • ASL(AverageSentenceLength):평균문장길이,ASW(AverageSylables perWord):평균 음절 수

 

Automatic

  • 동적으로 데이터 샘플을 선택하는 자동 난이도 측정기를 추가로 사용 (훈련 스케줄러와의 조합을 위해)
  • 쉬운 샘플과 어려운 샘플로 구분
  • r값(쉬운 샘플일 확률과 어려운 샘플일 확률의 비율) 조절
  • Static
    • r을학습 에포크 동안 동일한 값으로 설정

  • Adaptive
    • 현재 t번째 에포크에서의 r 값은 이전 에포크에서 쉬운 샘플과 어려운 샘플의 수에 기반
    • 쉽거나 어려운 샘플이 상대적으로 많을 때, 그반대의 샘플을 더자주 선택하는 경향

 

(4) 학습 스케줄러 (training scheduler)

  • Pre-defined 난이도 측정기와 Automatic 난이도 측정기를 활용하여 훈련 스케줄러를 설계
  • 선형 연속 스케줄러의 한형태
    • 학습 에포크 t를 스칼라 값λ∈ (0, 1]에 매핑
    • λ 비율만큼의 가장 쉬운 샘플을 사용하여 t번째 에포크에서 모델을 훈련
    • (쉬운, 어려운 샘플을 학습시킬 에폭의 비율)

  • CL: easy-to-hard
  • Anti-CL: hard-to-easy
    • λ 비율만큼의 가장 어려운 샘플을 사용하여 t번째 에포크에서 모델을 훈련

 

(5) Experimental Setup

  • Feature Engineering
    • 길이 기반, 구문적, 단어 수준, 가독성 등네가지 유형의 에세이 수준 특성 추출 (AES 에활용), 표준화
  • Baselines
    • (i) 커리큘럼 학습 전략을 적용하지 않은 단답형 ATS와에세이형 ATS 모델의 기본 버전
    • (i) 학습 에포크마다 샘플의 비율은 커리큘럼 학습 전략과 같지만 샘플은 데이터셋에서 무작위로 선택
  • Model Implementation
    • bert-base-cased 인코더 기반
    • 단답형 ATS 는분류 층을 추가, 에세이형 ATS는회귀층을 추가
    • 에세이형 ATS는평균 제곱 오차 (MSE) 손실 함수, 학습 샘플의 점수는 [0, 1]로정규화
  • Model Training
    • 학습, 검증, 테스트 세트 70%:15%:15% 비율
    • 배치 크기 16, 학습 에포크 5, 학습률 {2e-5, 3e-5, 5e-5} 선택, 옵티마이저 Adam
  • Model Evaluation
    • Quadratic Weighted Kappa (QWK) 지표 사용
    • ATS 모델에 의해 예측된 점수와 실제 점수 간의 일치도를 측정

 

 

4. Results

단답형 ATS에대한 결과

  • 랜덤 커리큘럼은 Baseline w/o 커리큘럼 학습(CL)에 비해 개선되지 않음
  • Pre-defined, Automatic 난이도 측정기를 커리큘럼 학습(CL)에 활용했을 때더좋은 성능
    • 특정 프롬프트(질문 2, 3, 4)에 대해더효과적 (어려운 경우더효과적)
  • 가독성 측정기가 다른 측정기들보다 우수한 성능
  • 커리큘럼 학습과 안티 커리큘럼 학습 사이에 큰차이가 없음

 

 

에세이형 ATS에대한 결과

  • (단답형과 동일) 랜덤 커리큘럼은 Baseline w/o 커리큘럼 학습(CL)에 비해 개선되지 않음
  • (단답형과 동일) Pre-defined, Automatic 난이도 측정기를 커리큘럼 학습(CL)에 활용했을 때더좋은 성능
  • (단답형과 동일) 특정 프롬프트(질문 1, 3, 4, 6)에대해 더좋은 성능
  • (단답형과 다르게) 어려운 경우 효과가 미비
  • 오류 측정기가 다른 측정기들보다 우수(robust)한 성능
  • (단답형과 동일) 커리큘럼 학습과 안티 커리큘럼 학습 사이에 큰차이가 없음

 

 

5. Conclusions

교육 분야에서의 ATS (작문 평가 시스템)의 성능을 향상 시키기 위해 커리큘럼 학습(CL) 전략의 효과를 조사

  • 데이터 샘플의 난이도 측정
    • 4개의 pre-defined, automatic
  • 쉬운 것에서 어려운 것으로, 어려운 것에서 쉬운 것으로의 두가지 훈련 패러다임
  • 두개의 다른 데이터셋으로 단답형 ATS, 에세이형 ATS 평가

 

향후 연구

  • 학습 과정에서 ATS 모델의 변화 분석 (다양한 훈련 에포크에서 입력 텍스트에 주어진 주의 가중치를 분석)
  • 발전된 스케줄러 사용 (본연구의 경우 단일 유형의 훈련 스케줄러만을 조사)