본문 바로가기

deepseek1

DeepSeek-R1 Incentivizing Reasoning Capability in LLMs via Reinforcement Learning (DeepSeek-R1 테크니컬 리포트 논문 읽기) DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning날짜: 2025년 1월 30일https://arxiv.org/pdf/2501.12948technical report 논문?!?! 이고 방법론까지만 읽어보았습니다.요즘 난리난 그 딥시크입니다특징으로는DeepSeek-R1-Zero: 초반 학습할 때 SFT 방식 아니고 강화학습 방식으로 학습근데 DeepSeek-R1-Zero가 몇 가지 문제가 있어서 해결방안 탐색해서 진행한게 DeepSeek-R1DeepSeek-R1에서는 콜드스타트 데이터와 강화학습을 좀 더 발전시켜서 학습 + RL 학습 성능이 수렴되면 그 이후에 추가적인 SFT 학습distillation 진행하고.. 2025. 1. 28.

이전 1 다음

티스토리툴바