Paper

[논문 읽기 #7] Pattern-based Time Series Semantic Segmentation with Gradual State Transitions

남디윤 2024. 5. 23. 17:50

 

모든 내용을 포함하고 있지 않습니다.

필요&중요 포인트만 요약한 내용입니다. (발표자료였음)

 

 

Time Series Segmentation 깃헙

  • 프로젝트에서 한 시계열 안에 구간 분리(라벨)를 비지도 방식으로 진행해야해서 subsequence clustering, time series seperation 등을 찾아보다가  time series segmentation 이라는 분야가 있다는 것을 알게 되었습니다.
  • 의미론적 분할 semantic segmentation 으로도 알려져있습니다.
  • 연구와 연구의 코드가 함께 있는 괜찮은 깃헙을 찾아 첨부합니다.
  • 깃헙의 introduction도 의미 있어서 정리해보자면,
    •  semantic segmentation 은 많은 영역의 연구와 연관
    • 시계열 세분화, 시계열 변화점 감지 및 시계열 이상/이상탐지 간의 경계 모호
    • 시계열에서 정보 압축 프로세스로 간주 가능성
    • 인간 동작 시계열 데이터는 모션 프리미티브 분해 작업과 연관
    • 시계열 세분화에 대한 논문은 다소 미온적
    • 딥러닝이 지배적이지 않음. 고전적이지만 견고한 알고리즘 중에는 오늘날에도 여전히 경쟁력이 높음

해당 깃헙을 중심으로 한동안은 팀원분들과 리뷰 논문 정독 + 최신 논문 정독 + 프로젝트 적용 진행예정입니다.

오늘은 그 중에서 한 논문을 정독했습니다.

Pattern - based다 보니 지금까지 많이 소개드린 SAX 기법이 적용된 논문이었습니다.

 

 

 

논문 기본 정보

Pattern-based Time Series Semantic Segmentation with Gradual State Transitions

  • SDM 2024 (4월 18일)
  • Keyword: Time Series Segmentation
  • 코드, 데이터셋 공개

 

 

1. Introduction & Related Works

  • 시계열 데이터에서 의미 있는 시간 간격을 자동으로 식별하는 것이 시계열 의미 분할의 목표
    • 예) 인간 활동 인식 – 시계열 하나에서 앉거나 서 있는 활동에 대한 시계열 분할
  • 기존 방법들1
    • 대부분 변화점 감지에 초점 (이산 상태 전환 분석 = 갑작스러운 변화),
    • 실제 응용에서는 상태가 점진적으로 변화하는 경우가 많음
      • 예) 구글 “메일“ 에 대한 검색 추이
      • (A) 관심(검색량)이 높은 근무 시간,
      • (B) 관심(검색량)이 잠시 감소한 주중 밤,
      • (C) 감소 추이가 더 긴 주말
    • 본 논문: 점진적 변화 감지 방법론 제안
  • 기존 방법들2
    • 예전: 특정 응용에 초점
    • 최근: 도메인 독립적

 

 

2. 방법론 PaTSS

  • 세 가지 단계
  • 1. 빈번한 패턴 마이닝 (Frequent Pattern Mining)
    • 시계열 데이터의 상징적 변환:
    • SAX 방법 사용
    • 연속적인 시계열 데이터를 사전 정의된 알파벳 크기 (몇 개로 변환할지) 에 따라 상징적으로 축약
  • 다중 해상도 슬라이딩 윈도우
    • 다양한 길이의 슬라이딩 윈도우 적용, 다양한 크기의 subsequence 추출
  • 패턴 선택
    • (상대적 지지도 계산을 통해) 데이터 세트 내에서 발생하는 빈도가 높은 패턴선택

 

 

 

  • 2. 패턴 기반 임베딩 (Pattern-based Embedding)
    • 패턴 – 시간 매핑
      • 각 시간 포인트에서 발견된 패턴을 기반으로 해당 시간 포인트를 설명할 수 있는 벡터 생성
    • 벡터 계산
      • 패턴의 발생 빈도 고려
      • 패턴이 각 시간 포인트에 가지는 중요도 수치화
      • 예) 특정 패턴이 특정 시간 포인트에서 빈번히 발생하면 그 패턴의 가중치 높아짐
    • 차원 축소
      • 초기 임베딩 벡터는 매우 고차원 (특히 패턴이 많을수록)
      • 분산 기반 선택
      • 높은 분산을 가지는 패턴 사용
      • 본산 높다는 것 = 시간에 따라 해당 패턴의 발생 활용이 크게 변한다는 것=의미 구간 잘 구분 특성

 

 

  • 3. 의미 구분 (Semantic Segmentation)
    • k-평균 클러스터링
      • 초기 분류 제공, 임의의 k개 클러스터 군집화
    • 로지스틱 회귀 모델링
      • 클러스터링 결과는 로지스틱 회귀 모델의 학습을 위한 레이블 역할
      • 각 시간 포인트에서 의미 구간(패턴) 발생 확률을 모델링
      • 이를 바탕으로 실루엣 점수를 계산하고 k 결정
    • 세그먼트 분할
      • 최적의 k를 바탕으로 세그먼트 분할
      • 각 시간 포인트에서 가장 높은 확률을 갖는 패턴을 찾아 연속적으로 같은 패턴이 나타나는 구간을 같은 세그먼트로 정의

 

 

 

3. Experiments

  • 비교 방법: 기존 이산 상태 전환 분석 모델(ClaSP, FLOSS, AutoPlait 등)과 비교
  • 평가 지표:
    • 이산 상태 전환: 실제 변화점을 얼마나 정확히 예측하는지 측정하는 손실 함수 사용
    • 점진적 상태 전환: 상태 전환의 정확한 확률적 모델링을 평가하기 위한 새로운 점수 시스템 사용
  • 이산 상태 전환 손실 함수
    • 예측된 변화점과 실제 변화점 사이의 거리 측정
    • 절대 거리의 합이나 평균
  • 점진적 상태 전환 점수 시스템
    • 예측된 상태 확률 분포와 실제 상태 확률 분포 사이의 일치도 평가
  • 데이터세트
    • 실제 데이터
      • UCR Time Series Semantic Segmentation Archive (UTSA)와 Time Series Segmentation Benchmark (TSSB)
      • 다양한 시계열에서 이산적인 세그먼트 경계를 포함
    • 합성 데이터 (공개되어있음)
      • 특정한 상태 전환 패턴을 포함하는 데이터를 생성
      • 점진적인 상태 전환을 시뮬레이션하기 위해 설계
  • 결과
    • 이산 상태 전환의 경우 기존 baseline 모델들이 더 잘 감지
    • 점직적 상태 전환의 경우, 본 논문의 PaTSS가 더 잘 감지함