Boaz/Reinforcement Learning2 [강화학습 #2] 챕터2. 마르코프 결정 과정 목차챕터 2. 마르코프 결정 과정2.1 마르코프 결정 과정 (MDP)이란?2.2 환경과 에이전트를 수식으로2.3 MDP의 목표2.4 MDP 예제 챕터 2. 마르코프 결정 과정밴디트: 에이전트 행동에 따라 문제의 설정 변화 X실제: 에이전트 행동에 따라 문제의 설정 변화 O마르코프 결정 과정 Markov Decision Process (MDP) 2.1 마르코프 결정 과정 (MDP)이란?결정 과정: 에이전트가 환경과 상호작용하면서 행동을 결정하는 과정MDP 문제 예시: 그리드 월드에이전트 agent: 로봇주변 environment: 환경보상 reward: 사과를 얻을 때 +1, 폭탄을 얻을 때 -2상태 state: 에이전트의 행동에 따라 에이전트가 처하는 상황이 달라짐타임 스텝 time step:에이전트.. 2025. 4. 7. [강화학습 #1] 챕터1. 밴디트 문제 BOAZ 학기 중 스터디로 강화학습 스터디도 진행 중인데,정리한 내용을 차차 올려보려고 합니다. 졸업 주제로 강화학습을 접목할 예정이라 보고 있는데책이 워낙 잘 쓰여져서 그런지 개념이 잡히고 있는 느낌..! 노션에 정리한 기록을 옮기는 거라.. 식이 다 잘 들어갈지 걱정이 되는군요...강화학습 차근차근 공부하실 분들께 이 책 추천합니다 :) 목차1.1 머신러닝 분류와 강화 학습1.2 밴디트 문제1.3 밴디트 알고리즘1.4 밴디트 알고리즘 구현1.5 비정상 문제 챕터 1. 밴디트 문제1.1 머신러닝 분류와 강화 학습머신러닝 분류: 지도 학습, 비지도 학습, 강화 학습지도 학습 supervised learning입력 (문제)과 출력(정답)을 쌍으로 묶은 데이터‘정답 레이블’ 이 존재사람의 손으로 정답 .. 2025. 4. 7. 이전 1 다음