[논문 읽기 #6] SAX-VSM: Interpretable Time Series Classification Using SAX and Vector Space Model

모든 내용을 포함하고 있지 않습니다.

필요&중요 포인트만 요약한 내용입니다. (발표자료였음)

아이디어는 독특했으나,, 실제로 적용 가능 여부는 미지수입니다.

최근 시계열 유사도 논문 작성하면서 이 방법도 적용해봤는데, 분류 성능이 좋지 않았기 때문에..

SAX-VSM: Interpretable Time Series Classification Using SAX and Vector Space Model

Symbolic Aggregate approXimation (SAX)
- 시계열 z정규화 이후
- PAA(PieceWise Aggregate Approximation)
  - w 개의 동일한 크기의 세그먼트로 나누고 각 세그먼트 내의 점에 대한 평균값을 계산
- α 개의 동일한 크기 영역으로 나누고 문자 변환

Bag of words representation of time series
- 분류할 클래스별로 슬라이딩 윈도우 기반으로 어휘 지정
- 순서가 지정되지는 않음

Vector Space Model (VSM) adaptation
- Tfidf 로 벡터 계산
  - 빈도와 역 문서 빈도를 사용하여 단어들마다 중요한 정도에 따라서 가중치를 부여하는 방법
  - 모든 문서에서 등장하는 단어는 중요도가 낮으며, 특정 문서에서만 자주 등장하는 단어는 중요도가 높게 계산
코사인 유사도를 사용하여 분류 진행
- 미분류 데이터 동일하게 SAX -> VSM 진행 후 벡터끼리 유사도 계산하여 가장 유사한 라벨값으로 분류되는 방식

SAX-VSM 모델의 매개변수
- 1) 시계열을 몇 개로 분할할 것인지 (길이)
- 2) 분할 후 평균을 냈을 때 그것을 몇 개의 알파벳으로 나눌지
- 3) 몇 개의 알파벳씩을 단어로 볼 것인지(아래 예시의 경우 5개)
DIRECT 최적화 기법
- DIRECT(DIviding RECTangles)는 경계 제약이 있는 도메인에서 실수 함수의 전역 최소값을 찾는 데 사용되는 알고리즘
- 초기화: 탐색 공간을 하나의 큰 초입방체(hypercube)로 표현하고 시작
- 샘플링: 초입방체의 중심에서 목적 함수를 평가하고, 이를 시작점으로 사용
- 분할: 알고리즘은 초입방체를 여러 개의 작은 사각형으로 분할, 각 사각형은 자신의 중심에서 함수를 평가
- 선택: 각 반복에서, 모든 사각형을 평가하여 가장 낮은 함수 값을 가진 사각형(최적 후보지점)을 찾음
- 반복
특징
- 전역 최적화: 지역 최적화에 빠지지 않고 전역 최소값을 찾는 데 효과적
- 다양한 문제에 적용
- 효율성

Visual Instruction Tuning (LLaVA 논문 리뷰) (5)	2024.11.04
[논문 읽기 #7] Pattern-based Time Series Semantic Segmentation with Gradual State Transitions (2)	2024.05.23
[논문 읽기 #5] LSTM-based Encoder-Decoder for Multi-sensor Anomaly Detection (1)	2024.04.24
[논문 읽기 #4]On the effectiveness of curriculum learning in educational text scoring (0)	2024.04.24
[논문 읽기 #3]Parallel deep prediction with covariance intersection fusion on non-stationary time series (3)	2024.04.03

남디윤 로그 데이터