모든 내용을 포함하고 있지 않습니다.
필요&중요 포인트만 요약한 내용입니다. (발표자료였음)
아이디어는 독특했으나,, 실제로 적용 가능 여부는 미지수입니다.
최근 시계열 유사도 논문 작성하면서 이 방법도 적용해봤는데, 분류 성능이 좋지 않았기 때문에..
논문 기본 정보
SAX-VSM: Interpretable Time Series Classification Using SAX and Vector Space Model
- 2013, ICDM , 379회 인용
- 분류 목적
- SAX 기호 집합 근사법 Symbolic Aggregate approximation
- VSM 벡터 공간 모델 Vector Space Model
1. Introduction
- 시계열 분류 알고리즘
- 1NN
- 성능 좋음, 적은 매개 변수 사용
- 분류 결과 근거 제공x, 큰 훈련 세트, 계산 비용
- -> 본 논문 대안 제시
- 해석 가능, 소규모 데이터세트, 분류 계산 복잡성 낮음
2. Method
- Symbolic Aggregate approXimation (SAX)
- 시계열 z정규화 이후
- PAA(PieceWise Aggregate Approximation)
- w 개의 동일한 크기의 세그먼트로 나누고 각 세그먼트 내의 점에 대한 평균값을 계산
- α 개의 동일한 크기 영역으로 나누고 문자 변환
- Bag of words representation of time series
- 분류할 클래스별로 슬라이딩 윈도우 기반으로 어휘 지정
- 순서가 지정되지는 않음
- Vector Space Model (VSM) adaptation
- Tfidf 로 벡터 계산
- 빈도와 역 문서 빈도를 사용하여 단어들마다 중요한 정도에 따라서 가중치를 부여하는 방법
- 모든 문서에서 등장하는 단어는 중요도가 낮으며, 특정 문서에서만 자주 등장하는 단어는 중요도가 높게 계산
- Tfidf 로 벡터 계산
- 코사인 유사도를 사용하여 분류 진행
- 미분류 데이터 동일하게 SAX -> VSM 진행 후 벡터끼리 유사도 계산하여 가장 유사한 라벨값으로 분류되는 방식
- SAX-VSM 모델의 매개변수
- 1) 시계열을 몇 개로 분할할 것인지 (길이)
- 2) 분할 후 평균을 냈을 때 그것을 몇 개의 알파벳으로 나눌지
- 3) 몇 개의 알파벳씩을 단어로 볼 것인지(아래 예시의 경우 5개)
- DIRECT 최적화 기법
- DIRECT(DIviding RECTangles)는 경계 제약이 있는 도메인에서 실수 함수의 전역 최소값을 찾는 데 사용되는 알고리즘
- 초기화: 탐색 공간을 하나의 큰 초입방체(hypercube)로 표현하고 시작
- 샘플링: 초입방체의 중심에서 목적 함수를 평가하고, 이를 시작점으로 사용
- 분할: 알고리즘은 초입방체를 여러 개의 작은 사각형으로 분할, 각 사각형은 자신의 중심에서 함수를 평가
- 선택: 각 반복에서, 모든 사각형을 평가하여 가장 낮은 함수 값을 가진 사각형(최적 후보지점)을 찾음
- 반복
- 특징
- 전역 최적화: 지역 최적화에 빠지지 않고 전역 최소값을 찾는 데 효과적
- 다양한 문제에 적용
- 효율성