본문 바로가기

전체 글129

[파이토치 트랜스포머 #11] 4장 파이토치 심화 - 5) 사전 학습된 모델 사전 학습된 모델사전 학습된 모델 Pre-trained Model: 대규모 데이터세트로 학습된 딥러닝 모델, 이미 학습이 완료된 모델모델 자체를 현재 시스템에 적용하거나, 사전 학습된 임베딩 Embeddings 벡터를 활용해 모델 구성 가능처음부터 모델 구성, 학습 x, 이미 학습된 모델의 일부 활용, 추가 학습을 통해 모델 성능 향상예) 늑대와 사자 구별하는 모델 구축개와 고양이 구별하는 사전 학습된 모델 활용동물의 형태를 구분하고 각 개체가 가진 특징을 구분하는 계층에 대한 학습이 완료된 모델이러한 사전 학습된 모델을 사용하면 안정되고 우수한 성능 기대 가능대규모 데이터세트에서 데이터의 특징을 학습했기 때문에 유사한 작업에 대해서도 우수한 성능 기대 가능학습에 필요한 시간 대폭 감소, 모델 개발 프로.. 2024. 7. 3.
[파이토치 트랜스포머 #10] 4장 파이토치 심화 - 4) 데이터 증강 및 변환 데이터 증강 및 변환데이터 증강 Data Argumentation데이터가 가진 고유한 특징을 유지한 채 변형하거나 노이즈를 추가해 데이터세트의 크기를 인위적으로 늘리는 방법기존 학습 데이터를 재가공, 원래 데이터와 유사하지만 새로운 데이터 생성필요 이유모델의 과대 적합 감소, 일반화 능력 향상데이터세트를 인위적으로 확장기존 데이터 품질 유지한 채 특징을 살려 모델 학습에 사용모델의 분산과 편향 감소 가능데이터 수집 시 잘못된 정보가 들어오는 문제 발생 x특정 클래스의 데이터가 적은 경우 데이터 증강 → 불균형 완화주의 사항너무 많은 변형, 노이즈 추가 → 기존 데이터가 가진 특징 파괴 = 데이터의 일관성 사라짐데이터 증강: 특정 알고리즘 적용해 생성, 데이터 수집보다 더 많은 비용 발생 가능 텍스트 데이.. 2024. 6. 30.
[코딩테스트#1] 기초 자료 구조: 배열, 문자열, 스택, 큐 방학 계획 중 하나인 코딩테스트 공부 포스팅을 지속적으로 해보도록 하겠습니다 (근데 제가 생각한 방학이랑은 많이 다른 상황이라,, 요즘 프로젝트 다시 엄청해서 개인공부.. 따흑.. 그래도 할겁니다)우선 한동안은 인강 들으면서 기초를 쌓고 그 이후에는 인강 + 백준으로 진행될 것 같습니다인강에서도 예제로 백준을 풉니다백준도 처음써봐서 적응중입니다. 첫 제 풀이 예제가 조금 이상할수도.. 기초 중 기초인 자료 구조인데에도, 이렇게 공부하니 또 색다르고 정리가 딱 되는것 같아서 좋습니다인강은 패스트캠퍼스 인강을 보고 있습니다.저는 비전공자라 파이썬을 야매로? 배웠더니 인강이 너무 적절하고 만족스럽네요ㅎㅎ나중에 쭉 다 보고 더 후기 남기겠습니다 (아직 전체 공개 안된 강의) https://fastcampus.c.. 2024. 6. 23.
[공부log 24.06.16]드디어 종강..☆, 방학 계획, 다이어트 근황 1. 종강이다..☆ 방학 시작이야~~ ^_종강이란 단어만 봐도 조금 심장이 두근거리는 것 같을만큼 너무 종강을 기다려왔기에히히요즘 너무 블로그를 안했어서 20일만에 쓰는 글이 또 일상글인거는 슬프지만 그래도 종강은 못참지..ㅎㅎㅎㅎ 유난히 바쁜 한 학기였던 것 같다.항상 머리로 생각하는 거는 수업 3개 더 듣는건데 왤케 시간이 부족할까 싶은 것..물론 유독 빡센 수업을 들었던 학기여서 그런것도 있겠지만 트랙 수업을 들었기 때문인데하나는 논문 쓰는 수업이여서 팀플빡세게 하구..(토요일에 알바 8시간 하고 학교 가서 밤10시 넘게까지 회의할 때 나 좀 체력쩐다 히히.. 근데 다신하고 싶진않아..)하나는 그냥 머신러닝/딥러닝 수업인데 과제 5번 + 캐글 2번인데알고는 들어갔지만 이거 진짜 너무 스트레스... .. 2024. 6. 16.
[공부log 24.05.26]최근 쓴 논문 두 개 회고하기 사실 화요일부터 회고 써야지 써야지 하다가 이제야 쓰는 글5월달은 그야말로 논문 2편에 다 시간을 썼다 해도 과언이 아니다그리하여 공통적으로 느꼈던 점과 각 논문 별로의 회고를 하려고 한다.   공통 회고 내용1. 리젝 당할 것을 두려워하지 말자.보통 리젝을 당할 때 리젝 이유를 대략적으로 알려준다. 논문을 쓰다보면 논문이 너무 평범하고, 기여점이 없는가라는 생각이 드는데, 맞지만.. 부족한 논문이지만, 그래도 정확히 어디가 부족한지를 리젝당하면서 알 수 있다. 저널마다 원하는 연구 주제와 방향성이 있고 이게 안맞으면 리젝당할 수도 있는 것 같다.그리고 사실 부족한 논문이라고 계속 생각이 들지만, 또 다른 논문들 보다보면 이게 왜 여기에 실렸지 싶은 논문도 많다. 그렇기에 일단 내는 것은 중요하다고 생각.. 2024. 5. 26.
[논문 읽기 #7] Pattern-based Time Series Semantic Segmentation with Gradual State Transitions 모든 내용을 포함하고 있지 않습니다.필요&중요 포인트만 요약한 내용입니다. (발표자료였음)  Time Series Segmentation 깃헙프로젝트에서 한 시계열 안에 구간 분리(라벨)를 비지도 방식으로 진행해야해서 subsequence clustering, time series seperation 등을 찾아보다가  time series segmentation 이라는 분야가 있다는 것을 알게 되었습니다.의미론적 분할 semantic segmentation 으로도 알려져있습니다.연구와 연구의 코드가 함께 있는 괜찮은 깃헙을 찾아 첨부합니다.https://github.com/lzz19980125/awesome-time-series-segmentation-papers?tab=readme-ov-file깃헙의 .. 2024. 5. 23.
[논문 읽기 #6] SAX-VSM: Interpretable Time Series Classification Using SAX and Vector Space Model 모든 내용을 포함하고 있지 않습니다.필요&중요 포인트만 요약한 내용입니다. (발표자료였음) 아이디어는 독특했으나,, 실제로 적용 가능 여부는 미지수입니다.최근 시계열 유사도 논문 작성하면서 이 방법도 적용해봤는데, 분류 성능이 좋지 않았기 때문에..  논문 기본 정보SAX-VSM: Interpretable Time Series Classification Using SAX and Vector Space Model2013, ICDM , 379회 인용분류 목적SAX 기호 집합 근사법 Symbolic Aggregate approximationVSM 벡터 공간 모델 Vector Space Model 1. Introduction시계열 분류 알고리즘1NN성능 좋음, 적은 매개 변수 사용분류 결과 근거 제공x, 큰 훈.. 2024. 5. 23.
[공부log 24.05.12]정처기 필기, 과제와 논문이란 무한 굴레 속 삶 1. 정처기 필기정처기를 볼까 말까 하다가 신청 2일차에 접수..! 대학원 나왔으면 정처기 안봐도 된다라는 이야기를 들었으나 또 문과 학부 출신에게 면접에서 GPU가 뭔지 아냐와 같은 질문을 수없이 한다하여.. 아직 취준을 준비하는 (취업 준비를 준비하는 대학원생) 기간이기에 따기로 했다 나름 공부를 하면 좋지 않을까 해서 인강을 결제했단 이말이다.. 하지만 결론적으로는 5단원중에 3단원 중간까지 봤다.. ㅎ... 대학원의 일상 속에는 평일에 인강 볼 시간이 거의 없어서, 보통 알바할 때 갤탭 들고가서 보는 식으로 인강을 봤는데 인강 보는거는 재미있었던 것 같음.. 근데 생각보다 정처기 필기는 방법론적인 이야기가 대부분인 듯 했다 결론적으로는 CS 인강을 보긴 해야할 듯 싶당.. 와중에 너무너무 바빠서... 2024. 5. 12.
[논문 읽기 #5] LSTM-based Encoder-Decoder for Multi-sensor Anomaly Detection 인용수 1222회의 유명한 이상탐지 쪽 논문입니다모든 내용을 포함하고 있지 않습니다.필요&중요 포인트만 요약한 내용입니다. (발표자료였음) 논문 기본 정보 LSTM-based Encoder-Decoder for Multi-sensor Anomaly DetectionICML20161222회 인용키워드여러 이상 현상 (점차 감소, 헌팅 등) 탐지 1. Model Architecture다중 센서 시계열에서 이상 탐지를 위한 LSTM 기반 인코더-디코더 체계(EncDecAD)를 제안정상 시퀀스만 사용하여 학습LSTM 인코더: 입력 시계열의 고정 길이 벡터 표현을 학습LSTM 디코더: 표현을 사용하여 현재 숨겨진 상태와 이전 시간 단계에서 예측된 값을 사용하여 시계열을 재.. 2024. 4. 24.
[논문 읽기 #4]On the effectiveness of curriculum learning in educational text scoring [서비스 데이터 분석과 인공지능 활용] 수업을 들으면서, 팀 주제(교육)에 따라서 교수님이 논문 리스트를 주신 뒤,팀원마다 각자 원하는 논문을 선택하여, 리뷰 발표하였습니다.본 포스팅에서는 리뷰 발표 ppt를 적어보도록 하겠습니다. 본 논문의 포인트는"ATS에서 Curriculum learning"의 효과입니다모델 구조보다는 Curriculum learning에 대한 글이라고 보시면 좋을 것 같습니다.   1. IntroductionATS (Automatic Text Scoring 작문 평가 시스템): 학생들의 단답형, 개방형 질문 답, 에세이 형식과 같은 장문형 답을 평가하는 시스템 ATS 연구규칙 기반 방법머신 러닝 기법 (수작업으로 만든 특징 입력)심층 신.. 2024. 4. 24.
[공부log 24.04.19]대학원생의 다이어트, 중간 대체 과제들, 근황 등 대학원생의 다이어트 몇 번 일상글에도 작성한 바와 같이 요즘 열심히 다이어트를 하고 있다 사실 2월 말부터 하긴 했는데 식단을 1달 전부터 함.. 식단을 안하고 운동만 하니까 건강한 돼지가 되어 가는...ㅎ........ 내가 사용하는 스마트 체중계 어플인데 주 단위로 그래프 보려하면 기간(x축ㅎ) 글씨가 길어서 저렇게 한 눈에 안보이고 2개정도 밖에 안보인다 (UIㅎ..) 가성비 체중계여서 그런지.. 여튼 아주 뿌듯한 그래프 아닌가..ㅎ.. 또 한편으로는 진짜 임계치에서 다이어트 시작한게 맞다 싶다 사실 1월달에 안재서 그렇지 (얼마나 심각했으면 기록을 안했을지 상상만 해주세요) 거의 매일매일 아침 공복에 재는 중이다 매일 재는게 좋다 아니다 일주일에 1~2번 재는게 좋다 라고 사람마다 다르게 얘기하는.. 2024. 4. 19.
[허깅페이스 트랜스포머 #1] Part 2 가장 다운로드 많이 된 모델 - Autoregressive Models 패스트캠퍼스에서 60일 간의 인강 수강 이벤트로 구입했던 인강입니다. 나중에 다 올리면 인강 총 후기?를 남기겠습니다. 노션에다가 써놓고 포스팅을 안해놓은거라 빠른 시일안에 다 올리는 것을 목표로..! 이 인강에서는 모든 강의를 간략 설명(15%) + 코드 실습(85%) 로 구성되어 있어서 필기가 짧습니다. 모델을 구체적으로 공부하고 싶으신 분들은 인강보다는 논문을 더 보시는 것을 권장드립니다. * 자기 회귀 모델은 시퀀스의 이전 입력에서 측정값을 가져와 시퀀스의 다음 성분을 자동으로 예측하는 기계 학습(ML) 모델의 클래스 2.1 GPT2로 문장 생성하기 논문: Language Models are Unsupervised Multitask Learners 비지도 다중 작업 학습기 GPT-2가 어떻게 훈련.. 2024. 4. 12.
[파이토치 트랜스포머 #9] 4장 파이토치 심화 - 3) 정칙화 정칙화 정칙화 Regularization 모델 학습 시 발생하는 과대적합을 방지하기 위해 사용되는 기술 모델이 암기가 아니라 일반화할 수 있도록 손실함수에 규제 Penalty를 가하는 방식 암기 Memorization란 모델이 데이터의 일반적인 패턴을 학습하는 것이 아니라 훈련 데이터의 노이즈나 패턴을 학습한 것 일반화 Generalization 란 특정 데이터가 갖고 있는 노이즈를 학습하는 것이 아닌, 데이터의 일반적인 패턴을 학습하는 것 손실 함수에 규제를 가해 모델의 일반화 성능을 향상 학습 데이터들이 갖고 있는 작은 차이점에 대해 덜 민감해져서 모델의 분산 값이 낮아짐 모델이 학습 시 의존하는 데이터의 특징 수 감소 → 모델의 추론 능력 개선 모델이 비교적 복잡하고 학습에 사용되는 데이터가 적을 .. 2024. 4. 12.
[파이토치 트랜스포머 #8] 4장 파이토치 심화 - 2) 가중치 초기화 가중치 초기화 가중치 초기화 Weight Initialization: 모델의 초기 가중치 값을 설정하는 것 적절한 초깃값 설정 기울기 폭주나 기울기 소실 문제 완화 가능 모델의 수렴 속도 향상, 전반적인 학습 프로세스 개선 상수 초기화 가중치를 초기화 하는 간단한 방법, 비용 거의 x 초기 가중치 값을 모두 같은 값으로 초기화 대표적으로, 0, 1, 특정 값 (Constant), 단위 행렬(Unit Matrix), 디랙 델타 함수(Dirac Delta Function) 값 등이 있음 일반적으로 사용되지 않는 초기화 방법. 모든 가중치 초깃값을 같은 값으로 초기화하면, 배열 구조의 가중치에서 문제 발생하기 때문 대칭 파괴 Breaking Symmetry 현상 발생. 모든 노드가 동일한 출력 생성. 모델 학.. 2024. 4. 12.
[파이토치 트랜스포머 #7] 4장 파이토치 심화 - 1) 과대적합과 과소적합, 배치 정규화 과대적합과 과소적합 과대적합 Overfitting: 모델이 훈련 데이터에서는 우수하게 예측, 새로운 데이터에서는 제대로 예측하지 못해 오차가 크게 발생하는 것을 의미 과소적합 Underfitting: 훈련 데이터에서도 성능이 좋지 않고, 새로운 데이터에 대해서도 성능이 좋지 않음. 공통점 성능 저하 모델 선택 실패 모델을 변경해 문제 완화 가능 과대적합: 모델의 구조가 너무 복잡 과소적합: 모델의 구조가 너무 단순 편향-분산 트레이드오프 모델이 훈련 데이터와 새로운 데이터에 대해서도 우수한 성능을 보이려면 낮은 편향과 낮은 분산을 가져야 함 분산이 높으면 추정치에 대한 변동 폭이 커짐 데이터가 갖고 있는 노이즈까지 학습 과정에 포함 → 과대 적합 발생 모델이 복잡할수록 분산은 커지고, 편향은 작아짐 모델.. 2024. 4. 12.
[파이토치 트랜스포머 #6] 3장 파이토치 기초 - 6) 순전파와 역전파, 퍼셉트론 순전파와 역전파 순전파 Forward Propagation 순방향 전달 Forward Pass라고도 하며, 입력이 주어지면 신경망의 출력을 계산하는 프로세스 입력 데이터를 기반으로 신경망을 따라 입력층부터 출력층가지 차례대로 변수를 계산하고 추론한 결과를 전달 네트워크에 입력값(x)을 전달해 순전파 연산을 진행 계층마다 가중치와 편향으로 계산된 값이 활성화 함수에 전달 활성화 함수에서 출력값 (y 햇)이 계산되고 이 값을 손실함수에 실젯값(y)과 함께 연산해 오차 계산 역전파 Back Propagation 순전파 방향과 반대로 연산 진행 순전파와 역전파는 네트워크가 입력값을 기반으로 예측을 수행할 수 있게 함 학습을 반복할수록 모델의 성능 향상 가능 신경망 학습에서 중요 프로세스 중 하나 유튜브 참고하여.. 2024. 4. 3.
[논문 읽기 #3]Parallel deep prediction with covariance intersection fusion on non-stationary time series 모든 내용을 포함하고 있지 않습니다. 필요&중요 포인트만 요약한 내용입니다. (발표자료였음) 특히 공분산 교차에 대해 주로 작성됨 (여러 시계열 n개 (n값은 변동)를 하나의 표현으로 만드는 것에 관심이 있는 요즘..) 논문 기본 정보 Parallel deep prediction with covariance intersection fusion on non-stationary time series Science Direct, Knowledge-Based Systems (IF 8.8) 2021년, 26회 인용 키워드 Time series prediction Deep learning Information fusion Multiple models Introduction 시계열 예측 어려움: 비선형 및 비고정 특.. 2024. 4. 3.
[논문 읽기 #2]SAX-ARM: Deviant event pattern discovery from multivariate time series using symbolic aggregate approximation and association rule mining 모든 내용을 포함하고 있지 않습니다. 필요&중요 포인트만 요약한 내용입니다. (발표자료였음) 논문 기본 정보 SAX-ARM: Deviant event pattern discovery from multivariate time series using symbolic aggregate approximation and association rule mining 2020 Expert Systems with Applications 배경 데이터 금속 가공 제조 데이터 다변량 (10개 변수) 1,437 길이 목적 이상탐지 이상 패턴 (시계열 서브시퀀스) 간의 연관성 찾기 예) 온도가 낮은 이상치 보였을 때 압력의 높은 이상치를 보인다. 프레임워크 1.INT: 정규화 2.SAX: 차원 축소를 통해 평균값으로 요약, 일정.. 2024. 4. 3.
[공부log 24.03.24]디지털 휴먼 초안 다썼당 ㅎㅎㅎ, 개강 후 근황 1. 디지털 휴먼 초안 완성 ㅎㅎㅎ 작년 11월인가 10월인가부터 이번 달 안에 다쓴다 다쓸거야 했던 디지털 휴먼 주제 논문 드디어 다 썼당...ㅎㅎ.... 쓰다가 너무 뭐가 없어서 다시 더 모델링, 다시 더 실험하고.. 다른 일에 치여서 이래저래 밀리던 논문... 드디어 지금 막..!! 초안이 완성되었다 이말이다.. 감격의 눈물이 ㅠㅠㅠㅠㅠ 지난주에 너무 바빠서 1도 못써서 이번주 목요일부터 절치부심해서 매일매일 많은 양을 쓴 결과.. 오늘 완성했당 투고가 될려나는 자신없긴 한데 말이지 허허 [한국어 초안 작성 - 한국어 수정 - 영어 번역 - 투고]로 진행을 하게 되는데 왜냐면 영어로 바로 쓸 능력이 없기 때문이다 ㅎ.. 그리고 초안 작성한 바로는.... 진짜 수정할 내용 개많음... 구성도 몇 번을.. 2024. 3. 24.
[논문 읽기 #1]Spikelet: An Adaptive Symbolic Approximation for Finding Higher-Level Structure in Time Series 안녕하세요, 기존에 읽었던 논문들 & 정리해놨던 ppt를 오늘부터 조금씩 업로드하려고 합니다. 다소 이해가 부족할 수 있습니다...!(정독하는 모든 논문을 다 업로드할 예정은 아니고, ppt로 만들어둔 논문만 올리려구 합니당.. ㅎㅎ) 논문 기본 정보 Spikelet: An Adaptive Symbolic Approximation for Finding Higher-Level Structure in Time Series 2021 ICDM (IEEE International Conference on Data Mining) 후속 논문 Parameter free Spikelet Discovering Different Length and Warped Time Series Motifs using an Adaptiv.. 2024. 3. 21.