[논문 읽기 #4]On the effectiveness of curriculum learning in educational text scoring

[서비스 데이터 분석과 인공지능 활용] 수업을 들으면서, 팀 주제(교육)에 따라서 교수님이 논문 리스트를 주신 뒤,

팀원마다 각자 원하는 논문을 선택하여, 리뷰 발표하였습니다.

본 포스팅에서는 리뷰 발표 ppt를 적어보도록 하겠습니다.

본 논문의 포인트는

"ATS에서 Curriculum learning"의 효과입니다

모델 구조보다는 Curriculum learning에 대한 글이라고 보시면 좋을 것 같습니다.

1. Introduction

ATS (Automatic Text Scoring 작문 평가 시스템)
: 학생들의 단답형, 개방형 질문 답, 에세이 형식과 같은 장문형 답을 평가하는 시스템

ATS 연구

규칙 기반 방법
머신 러닝 기법 (수작업으로 만든 특징 입력)
심층 신경망 기반 (입력 텍스트에서 자동으로 특징 추출)

현 ATS 연구

(채점 성능을 향상시키기 위해) 더 복잡하거나 목적에 적합한 설계된 모델 구조를 사용하는 방향
작문 평가: 경험 많은 인간 채점자도 점수 부여를 다르게 하는 경우 다수

본 연구

모델 훈련 과정에도 주목필요 → 커리큘럼 학습 (Curriculum Learning)
- 인간의 학습 순서와유사하게, 쉬운 것부터 어려운 것까지 순서대로 입력하여 학습시키는 방법
- (학습 중에 데이터 샘플을 무작위로 섞지 않고 특정 순서로 입력시켜 머신러닝 모델의 성능을 개선)
RQ: 커리큘럼 학습이 ATS의성능을 향상시켜줄 수 있는가

커리큘럼 학습 구성 요소

(1) 난이도 측정기 (difficulty measurer)

학습 데이터의 상대적 난이도 결정
pre-defined (길이, 가동성, 문법 오류, 고유 단어 수), automatic

(2) 학습 스케줄러 (training scheduler)

난이도 측정기의 평가를 바탕으로, 어떤 데이터 부분이 모델에 특정 훈련 에포크(epoch) 동안 입력될지를 결정

커리큘럼 학습 방법:

easy to hard(curr), hard to easy(anti-curr)

주요 포인트

커리큘럼 학습이 ATS 모델 성능 향상을 가져오는지
난이도 측정기 pre-defined, automatic의 결과 차이, pre-defined의 특징별 결과 분석
학습 방법 easy to hard, hard to easy 의차이

2. Related Works

Automatic Text Scoring in Education

수동 평가 → (ATS등장) 머신러닝 기법 → 딥러닝 기법
본논문
- 모델 학습 과정 최적화 필요, 커리큘럼 학습

Curriculum Learning

인간 교육 과정에서의 의미 있는 학습 순서를 모방하여 예측 모델을 학습시키는 전략 (쉬운 ~ 어려운)
컴퓨터 비전과 자연어 처리(NLP) 연구에서 다양한 모델의 성능 향상
- 데이터 분포를 조정, 저품질 ~ 고품질 등
안티 커리큘럼 aniti-curriculum: 어려운 ~쉬운 데이터로의 학습
- 특정 상황에서 모델의 성능을 더욱 향상
본논문
- 교육 분야 기존 ATS 모델의 CL 전략 필요

3. Methods

(1) Tasks and Datasets

단답형, 에세이형(장문형) 테스크

단답형 데이터셋 ASAS (Automatic Short Answer Scroing)

과학, 생물학, 영어 등다양한 과목에 대한 답변
평균적으로 41.7개의 단어 수
두명의 인간 채점자가 평가
- 첫번째 채점자 평가: ATS 모델이 예측해야 하는 점수
- 두번째 채점자 평가: 평가자들 간의 일치도 측정.
- (12.8%가 다른 점수를 받은 답변)
  - *QWK(Quadratic WeightedKappa):
  - 두채점자간의평가일치도를측정하는지표
  - 0~1사이값,QWK값이1에가까울수록채점자간의일치도가높다는것을의미
  - 알려진/예상점수와예측점수사이에서계산

에세이형 데이터셋 AES (Automatic Essay Scroing)

8가지 에세이형 문제에 대한 답변
(유사) 최소 두명의 인간 채점자에 의해 평가
(차이) 모델 예측할 점수가 모든 인간 채점자 제공 점수 기반 결정
- (37.9%가다른 점수를 받은 답변)

(2) 모델

단답형 ATS와에세이형 ATS로사용되는 SOTA 모델과 비교

단답형 ATS 모델

점수 범위 (0~3점) → 분류 문제
BERT와 단일 분류 계층 결합 접근 방식 + Finetuning

에세이형 ATS 모델

회귀 모델
BERT 모델 + 에세이 답변에서 Features 추출 결합
- Features: 답변의 길이, 단어 수준, 가독성 , 구문적 특성

(3) 난이도 측정기 (difficulty measurer)

학습 데이터의 상대적 난이도 결정

Pre-defined

네개의 특성 난이도 측정기 (인간 측정x)
길이: 텍스트의 길이 지표, 길수록 어려움
Distinct-1: 답변에 포함된 고유 단어의 수지표, 고유 단어가 많을수록 어려움
가독성: *Flesch Reading Ease 점수 바탕으로 생성, 0~100 범위(0에 가까울수록 어려움),
오류: 문법 오류와 철자 오류의 수지표, 오류가 많을수록 어려움
- *Flesch Reading Ease
- 문장길이와단어길이를사용하여텍스트의가독성을평가
- Score=206.835−(1.015×ASL)−(84.6×ASW)
- ASL(AverageSentenceLength):평균문장길이,ASW(AverageSylables perWord):평균 음절 수

Automatic

동적으로 데이터 샘플을 선택하는 자동 난이도 측정기를 추가로 사용 (훈련 스케줄러와의 조합을 위해)
쉬운 샘플과 어려운 샘플로 구분
r값(쉬운 샘플일 확률과 어려운 샘플일 확률의 비율) 조절
Static
- r을학습 에포크 동안 동일한 값으로 설정

Adaptive
- 현재 t번째 에포크에서의 r 값은 이전 에포크에서 쉬운 샘플과 어려운 샘플의 수에 기반
- 쉽거나 어려운 샘플이 상대적으로 많을 때, 그반대의 샘플을 더자주 선택하는 경향

(4) 학습 스케줄러 (training scheduler)

Pre-defined 난이도 측정기와 Automatic 난이도 측정기를 활용하여 훈련 스케줄러를 설계
선형 연속 스케줄러의 한형태
- 학습 에포크 t를 스칼라 값λ∈ (0, 1]에 매핑
- λ 비율만큼의 가장 쉬운 샘플을 사용하여 t번째 에포크에서 모델을 훈련
- (쉬운, 어려운 샘플을 학습시킬 에폭의 비율)

CL: easy-to-hard
Anti-CL: hard-to-easy
- λ 비율만큼의 가장 어려운 샘플을 사용하여 t번째 에포크에서 모델을 훈련

(5) Experimental Setup

Feature Engineering
- 길이 기반, 구문적, 단어 수준, 가독성 등네가지 유형의 에세이 수준 특성 추출 (AES 에활용), 표준화
Baselines
- (i) 커리큘럼 학습 전략을 적용하지 않은 단답형 ATS와에세이형 ATS 모델의 기본 버전
- (i) 학습 에포크마다 샘플의 비율은 커리큘럼 학습 전략과 같지만 샘플은 데이터셋에서 무작위로 선택
Model Implementation
- bert-base-cased 인코더 기반
- 단답형 ATS 는분류 층을 추가, 에세이형 ATS는회귀층을 추가
- 에세이형 ATS는평균 제곱 오차 (MSE) 손실 함수, 학습 샘플의 점수는 [0, 1]로정규화
Model Training
- 학습, 검증, 테스트 세트 70%:15%:15% 비율
- 배치 크기 16, 학습 에포크 5, 학습률 {2e-5, 3e-5, 5e-5} 선택, 옵티마이저 Adam
Model Evaluation
- Quadratic Weighted Kappa (QWK) 지표 사용
- ATS 모델에 의해 예측된 점수와 실제 점수 간의 일치도를 측정

4. Results

단답형 ATS에대한 결과

랜덤 커리큘럼은 Baseline w/o 커리큘럼 학습(CL)에 비해 개선되지 않음
Pre-defined, Automatic 난이도 측정기를 커리큘럼 학습(CL)에 활용했을 때더좋은 성능
- 특정 프롬프트(질문 2, 3, 4)에 대해더효과적 (어려운 경우더효과적)
가독성 측정기가 다른 측정기들보다 우수한 성능
커리큘럼 학습과 안티 커리큘럼 학습 사이에 큰차이가 없음

에세이형 ATS에대한 결과

(단답형과 동일) 랜덤 커리큘럼은 Baseline w/o 커리큘럼 학습(CL)에 비해 개선되지 않음
(단답형과 동일) Pre-defined, Automatic 난이도 측정기를 커리큘럼 학습(CL)에 활용했을 때더좋은 성능
(단답형과 동일) 특정 프롬프트(질문 1, 3, 4, 6)에대해 더좋은 성능
(단답형과 다르게) 어려운 경우 효과가 미비
오류 측정기가 다른 측정기들보다 우수(robust)한 성능
(단답형과 동일) 커리큘럼 학습과 안티 커리큘럼 학습 사이에 큰차이가 없음

5. Conclusions

교육 분야에서의 ATS (작문 평가 시스템)의 성능을 향상 시키기 위해 커리큘럼 학습(CL) 전략의 효과를 조사

데이터 샘플의 난이도 측정
- 4개의 pre-defined, automatic
쉬운 것에서 어려운 것으로, 어려운 것에서 쉬운 것으로의 두가지 훈련 패러다임
두개의 다른 데이터셋으로 단답형 ATS, 에세이형 ATS 평가

향후 연구

학습 과정에서 ATS 모델의 변화 분석 (다양한 훈련 에포크에서 입력 텍스트에 주어진 주의 가중치를 분석)
발전된 스케줄러 사용 (본연구의 경우 단일 유형의 훈련 스케줄러만을 조사)

'Paper' 카테고리의 다른 글

[논문 읽기 #6] SAX-VSM: Interpretable Time Series Classification Using SAX and Vector Space Model (3)	2024.05.23
[논문 읽기 #5] LSTM-based Encoder-Decoder for Multi-sensor Anomaly Detection (1)	2024.04.24
[논문 읽기 #3]Parallel deep prediction with covariance intersection fusion on non-stationary time series (3)	2024.04.03
[논문 읽기 #2]SAX-ARM: Deviant event pattern discovery from multivariate time series using symbolic aggregate approximation and association rule mining (0)	2024.04.03
[논문 읽기 #1]Spikelet: An Adaptive Symbolic Approximation for Finding Higher-Level Structure in Time Series (3)	2024.03.21

남디윤 로그 데이터

[논문 읽기 #4]On the effectiveness of curriculum learning in educational text scoring

1. Introduction

2. Related Works

3. Methods

4. Results

5. Conclusions

'Paper' 카테고리의 다른 글

티스토리툴바

[논문 읽기 #4]On the effectiveness of curriculum learning in educational text scoring

1. Introduction

2. Related Works

3. Methods

4. Results

5. Conclusions

'Paper' 카테고리의 다른 글

관련글

티스토리툴바