본문 바로가기
Paper

[논문 읽기 #6] SAX-VSM: Interpretable Time Series Classification Using SAX and Vector Space Model

by 남디윤 2024. 5. 23.

 

 

모든 내용을 포함하고 있지 않습니다.

필요&중요 포인트만 요약한 내용입니다. (발표자료였음)

 

아이디어는 독특했으나,, 실제로 적용 가능 여부는 미지수입니다.

최근 시계열 유사도 논문 작성하면서 이 방법도 적용해봤는데, 분류 성능이 좋지 않았기 때문에..

 

 

논문 기본 정보

SAX-VSM: Interpretable Time Series Classification Using SAX and Vector Space Model

  • 2013, ICDM , 379회 인용
  • 분류 목적
  • SAX 기호 집합 근사법 Symbolic Aggregate approximation
  • VSM 벡터 공간 모델 Vector Space Model

 

1. Introduction

  • 시계열 분류 알고리즘
  • 1NN
  • 성능 좋음, 적은 매개 변수 사용
  • 분류 결과 근거 제공x, 큰 훈련 세트, 계산 비용
  • -> 본 논문 대안 제시
    • 해석 가능, 소규모 데이터세트, 분류 계산 복잡성 낮음

 

 

2. Method

  • Symbolic Aggregate approXimation (SAX)
    • 시계열 z정규화 이후
    • PAA(PieceWise Aggregate Approximation)
      • w 개의 동일한 크기의 세그먼트로 나누고 각 세그먼트 내의 점에 대한 평균값을 계산
    • α 개의 동일한 크기 영역으로 나누고 문자 변환

 

 

  • Bag of words representation of time series
    • 분류할 클래스별로 슬라이딩 윈도우 기반으로 어휘 지정
    • 순서가 지정되지는 않음

 

 

 

  • Vector Space Model (VSM) adaptation
    • Tfidf 로 벡터 계산
      • 빈도와 역 문서 빈도를 사용하여 단어들마다 중요한 정도에 따라서 가중치를 부여하는 방법
      • 모든 문서에서 등장하는 단어는 중요도가 낮으며, 특정 문서에서만 자주 등장하는 단어는 중요도가 높게 계산
  • 코사인 유사도를 사용하여 분류 진행
    • 미분류 데이터 동일하게 SAX -> VSM 진행 후 벡터끼리 유사도 계산하여 가장 유사한 라벨값으로 분류되는 방식

 

 

 

  • SAX-VSM 모델의 매개변수
    • 1) 시계열을 몇 개로 분할할 것인지 (길이)
    • 2) 분할 후 평균을 냈을 때 그것을 몇 개의 알파벳으로 나눌지
    • 3) 몇 개의 알파벳씩을 단어로 볼 것인지(아래 예시의 경우 5개)
  • DIRECT 최적화 기법
    • DIRECT(DIviding RECTangles)는 경계 제약이 있는 도메인에서 실수 함수의 전역 최소값을 찾는 데 사용되는 알고리즘
    • 초기화: 탐색 공간을 하나의 큰 초입방체(hypercube)로 표현하고 시작
    • 샘플링: 초입방체의 중심에서 목적 함수를 평가하고, 이를 시작점으로 사용
    • 분할: 알고리즘은 초입방체를 여러 개의 작은 사각형으로 분할, 각 사각형은 자신의 중심에서 함수를 평가
    • 선택: 각 반복에서, 모든 사각형을 평가하여 가장 낮은 함수 값을 가진 사각형(최적 후보지점)을 찾음
    • 반복
  • 특징
    • 전역 최적화: 지역 최적화에 빠지지 않고 전역 최소값을 찾는 데 효과적
    • 다양한 문제에 적용
    • 효율성