본문 바로가기
Paper

R1-VL: Learning to Reason with Multimodal Large Language Models via Step-wise Group Relative Policy Optimization 논문 리뷰

by 남디윤 2025. 5. 6.

R1-VL: Learning to Reason with Multimodal Large Language Models via Step-wise Group Relative Policy Optimization

날짜: 2025년 4월 17일

  • https://arxiv.org/pdf/2503.12937
  • Mulberry 저자 후속 논문
    • Mulberry는 학습 데이터셋 제안, 지도 학습 모델
    • 이 논문은 Mulberry로 강화학습한 모델
    • https://github.com/jingyi0000/R1-VL
    • key step 추출하는게 엄청 중요한데 아직 공개전.. 며칠전에 보상함수는 공개함
  • 멀티모달 강화학습 추론 데이터 포함 시 성능이 저하되는 경향
    • 레퍼, 논문 등에서
      • → 아마 본인 생각으로는 추론에 대한 보상이 딱히 없어서 그런게 아닌가 싶은
      • → 단순히 추론 길이만 늘리게끔 보상한다든지 등
    • 이 논문에서는 추론에 대한 보상도 설정했다는 점에서 읽어봄
  • 희소 보상 문제가 흥미로운데, 근데 크게 근거가 없달까..
  • 추론 과정 (think 토큰 내부)에 보상 주는 논문이 거의 없는데 이 논문은 과정에도 보상을 주는 논문
    • 근데 warmup하는것에 있어서 아직 논란?이 있는데 이 논문은 warmup 함
    • 근데 또 코드 보니까 의문이 들고.. 모델 돌려보니까 그닥인데.. 뭐.. 그렇습니다.
    • 이 논문처럼 딱 보상함수를 쓰려면 mulberry 모델로 warmup 해서 써야함.. 
    • 아직 think 토큰 내부를 건드는 보상 관련된 논문이 없는게 효과가 없기 때문이지 않나.. 싶은데..

 

 

Abstract

  • MLLM의 추론 능력
    • 최근 연구: 고품질의 chain-of-thought (CoT) 추론 데이터에 대한 지도 학습 미세 조정
      • 종종 모델이 잘못된 추론 경로가 무엇인지 이해하지 못한 채 성공적인 추론 경로를 모방
    • 본 연구: 새로운 온라인 강화 학습 프레임워크인 Step-wise Group Relative Policy Optimization (StepGRPO)을 설계
      • 두 가지 새로운 규칙 기반 추론 보상
      • Step-wise Reasoning Accuracy Reward (StepRAR): 소프트 키-스텝 매칭 기술을 통해 필요한 중간 추론 단계를 포함하는 추론 경로에 보상을 제공
      • Step-wise Reasoning Validity Reward (StepRVR): 추론 완전성 및 논리 평가 전략을 통해 잘 구조화되고 논리적으로 일관된 추론 과정을 따르는 추론 경로에 보상
      • StepGRPO로 학습한 MLLM 시리즈인 R1-VL을 소개

 

 

1. Introduction

  • MLLM의 추론 능력
    • 고품질의 chain-of-thought (CoT) 추론 데이터에 대해 지도 학습 미세 조정 (SFT)을 사용
    • SFT 접근 방식: 긍정적인 추론 경로 (즉, 올바른 답으로 이어지는 경로)에만 초점을 맞추고, 부정적인 추론 경로는 크게 무시
    • → 모델이 결함이 있고 잘못된 추론 경로가 무엇인지 이해하지 못한 채 성공적인 추론 경로를 모방
  • 본 연구: 모방이 아닌 MLLM의 추론 능력 향상 (모방(SFT)이 아니다 뭐 그런 맥락)
    • Deepseek-R1 및 Kimi-1.5:
      • reward model의 필요성 제거, rule 기반 보상 함수에 따라 생성된 추론 경로에 보상을 제공
      • LLM이 추론 경로 그룹을 생성하고 반복적으로 추론 프로세스를 개선하도록 장려
      • → 정답으로 이어지는 추론 경로는 더 높은 보상, 오답으로 이어지는 경로는 더 낮은 보상
    • MLLM 적용
      • 직관적 아이디어: LLM 온라인 강화 학습 방법을 MLLM에 직접 적용
        • Deepseek-R1의 GRPO와 같이, 결과 수준의 보상에만 의존
        • → MLLM 추론 학습에서 희소 보상 문제로 어려움을 겪는 경우가 많아 최적의 성능을 얻지 못함,
        • 소규모 MLLM은 긴 사슬 추론 정확도와 유효성에서 매우 제한적인 능력, 긍정적/높은 보상을 받을 수 있는 MLLM 생성 추론 경로는 거의 없음,

 

 

  • 본 연구: 온라인 강화 학습 프레임워크인 Stepwise Group Relative Policy Optimization (StepGRPO) 제안
    • 희소한 결과 수준의 보상 외에도 밀도 높은 단계별 추론 보상을 도입하여 이 희소 보상 문제를 해결할 것을 제안
    • 추가적인 process reward model을 사용 X,
    • 두 가지 새로운 rule 기반 추론 보상 메커니즘: Step-wise Reasoning Accuracy Reward (StepRAR), Step-wise Reasoning Validity Reward (StepRVR)
      • 추론 경로에 보상
      • StepRAR:추론 경로에 주요 중간 추론 단계(즉, 올바른 최종 솔루션에 도달하는 데 필요한 단계)가 포함되어 있는지 평가, soft keystep matching 기술 사용
      • StepRVR: 추론 과정 구성, 논리적 일관성 평가
    • 두 가지 주요 이점
      1. 효과성: 전체 추론 궤적을 따라 풍부하고 세분화된 단계별 추론 보상을 제공
      2. 효율성: process reward model의 필요성 없애면서 단계별 추론 보상 제공 → 계산 오버헤드 감소
  • 기여점
    • 새로운 온라인 강화 학습 프레임워크인 StepGRPO를 제안
    • process reward model의 필요 없이, 두 가지 새로운 rule 기반 추론 보상 메커니즘 제안
    • 제안된 StepGRPO를 통해 뛰어난 추론 능력을 갖춘 일련의 MLLM인 R1-VL을 개발
    • R1-VL이 최첨단 MLLM에 비해 우수한 성능

 

 

2. Related Work

2.1 Multimodal Large Language Model

  • 광범위한 비전-언어 이해 task에서 놀라운 발전
  • 다양한 응용 분야에서 시각적 콘텐츠를 이해하고 분석하는 능력

 

2.2 MLLM Reasoning

  • 일반적:
    • 고품질의 chain-of-thoughts (CoT) 데이터를 생성하여 MLLM의 추론 능력을 향상
    • 지도 학습 미세 조정을 수행
    • LLaVA-COT, Mulberry
  • 본 연구: 단계별 보상 신호를 통해 추론 능력을 스스로 향상시킬 수 있도록 하는 StepGRPO를 설계

 

2.3 Reinforcement Learning

  • 강화학습: 에이전트가 행동을 취하고 보상을 받으며 장기적인 수익을 극대화하기 위해 정책을 업데이트함으로써 환경과 상호 작용하는 방법을 학습
    • 일반적인 RL 방법: (예: Q-learning) 로봇 공학, 게임 플레이(예: AlphaGo) 및 자동 제어에 널리 적용
    • LLM 이후: Reinforcement Learning with Human Feedback (RLHF) 인간 선호도 데이터를 사용하여 모델을 미세 조정하는 핵심 기술
      • Proximal Policy Optimization (PPO), Direct Preference Optimization (DPO)와 같은 알고리즘 활용
      • 응답 생성 시 정렬, 일관성 및 유용성을 개선하기 위해 모델 동작을 안내
    • 최근 방법: 간단한 결과 수준의 규칙 기반 보상 함수(즉, 올바른 답변으로 이어지는 추론 궤적은 더 높은 점수로 보상됨)를 사용
      • → 효과적이고 신뢰할 수 있는 보상 신호 제공 가능
      • → 예: 딥시크 R1 결과 수준 보상을 통한 group relative policy optimization (GRPO)
  • 본 연구: 강화 학습을 통해 MLLM의 추론 능력 향상, MLLM의 희소 보상 문제를 효과적으로 해결

 

 

3. Method

3.1 Task Formulation

 

  • 정책 모델 $\pi_{\theta}$
  • 멀티모달 질문 $Q = { \text{text}, \text{image} }$ → 정책모델 $\pi$: 단계별 추론 궤적 사용하여 응답 c 생성
  • 각 작업 후 새로운 상태 $s_{t+1}$은 새로 생성된 작업 $a_t$로 현재 상태 $s_t$를 업데이트
  • 목표: 이전 상태를 기반으로 더 나은 작업을 선택하여 추론 품질을 향상시킬 수 있도록 정책 모델 $\pi_{\theta}$를 최적화하는 것
  • 상태 $s_t$에서 작업 $a_t$를 수행하기 위한 보상 $r(s_t, a_t, s_{t+1})$
  • 작업: 여러 단어 토큰을 포함하는 하나 이상의 문장으로 구성된 추론 단계 생성

 

3.2 Step-wise Group Relative Policy Optimization

  • Step-wise Group Relative Policy Optimization (StepGRPO)을 제안
    • 희소 보상 문제를 완화, 간단하고 효과적이며 밀도가 높은 단계별 보상 메커니즘
    • (1) 정책 워밍업 단계와 (2) 단계별 온라인 정책 최적화 단계의 두 단계로 구성
  • Policy Warm-up
    • 정책 모델에 기본적인 추론 기능을 장착 → 강화 학습 전에 적절한 단계별 추론 경로를 생성
      • 정해진 추론 경로에서 학습하는 지도학습
    • 정책 모델 미세 조정: Chain-of-Thought (CoT) 추론 경로가 있는 멀티모달 데이터 세트 (멀티모달 질문 Q, 단계별 추론 경로 $\tau$ 으로 구성된 데이터 세트 $D_s$
      • 입력(문제와 그에 대한 단계별 해석), 정답(추론 경로)

 

 

  • Step-wise Online Policy Optimization
    • 각 질문 $Q \in D_s$에 대해 정책 모델 $\pi_{\theta}$이 여러 롤아웃을 통해 M개 추론 궤적 그룹 $ci_i^M$ 생성
    • → 제시된 단계별 추론 보상을 사용하여 생성된 각 추론 궤적을 평가하고 보상
  • Step-wise reasoning accuracy reward (StepRAR)
    • 올바른 중간 추론 단계를 포함하는 추론 경로에 추가로 보상을 제공
    • 각 질문 Q에 대해 데이터 세트 $D_s$의 추론 경로 $\tau$에서 핵심 추론 답계 집합 $v={v1, v2.}$ 미리 추출
      • 핵심 단계를 최종 솔루션에 직접적으로 기여하는 필수 변수 및 방정식으로 정의
      • GPT-4로 핵심 단계 추출
      • 중복된 내용을 제거, 핵심 단어만 유지, 동등한 형식 적용
    • 소프트 매칭 메커니즘 사용
    • 보상 (수식 참고)

 

 

  • Step-wise reasoning validity reward (StepRVR)
    • 논리적으로 구조화되고 일관된 진행을 따르도록 하는 것을 목표
      • → 두 가지 핵심 기준: 추론 완전성 $\delta_c$, 추론 논리 $\delta_l$
    • 추론 완전성: background analysis(이미지 설명, 맥락 파악), step-by-step reasoning process, 최종 정답
    • 추론 논리: 배경 분석 → solution, reasoning → answer
    • 보상 (수식 참고)

 

 

  • Optimization with the step-wise rewards
    • 전체 보상을 $r_i=r_{iauc}+r_{ival}$로 계산
    • 생성된 추론 경로에 대한 보상을 반복적으로 계산
    • 그룹에 대한 상대적 보상 정규화 (수식 위 참고)
      • 평균 그룹 보상이 baseline으로 $\hat{A}_i$는 $r_i$가 그룹 내의 다른 추론 궤적에 비해 얼마나 더 좋거나 나쁜지를 측정
    • 정책 모델 손실 함수(최적화) (수식 아래 참고)
      • KL divergence: 정책 모델을 정규화하여 참조 모델에서 과도하게 벗어나는 것을 방지
      • 참조 모델: (일반적으로 정책 모델과 동일한 모델로 초기화) 강화 학습 중에는 freeze

 

 

 

4. Experiment

4.1 Datasets

  • 정책 모델 warm-up: Mulberry-260k으로 지도 학습 (Supervised Learning) 미세 조정
  • Step-wise: Mulberry-260k에서 10K 데이터를 무작위로 샘플링
  • 평가 데이터셋: 8개 멀티모달 벤치마크

 

 

4.2 Implementation Details

  • 베이스 모델: Qwen2-VL-2B, Qwen2-VL-7B
  • Step-wise:
    • 질문당 4개의 롤아웃(M = 4)을 수행
    • 샘플링 온도를 1.2로 설정: 다양한 추론 경로 장려
    • 최대 시퀀스 길이는 L = 1024
    • 매치 점수 계수 α 0.1
    • KL divergence 계수 β 0.04
  • (H100 80GB 4개에서 배치크기 4)

 

4.3 Main Experimental Results

 

  • R1-VL vs 직접 적용 GRPO
    • GRPO를 기준 모델에 직접 적용 → 희소 보상 문제로 인해 성능 저하 발생
    • StepGRPO: Qwen2-VL-2B보다 4.6%, Qwen2-VL-7B보다 8% 향상
    • → StepGRPO: 단계별 추론 정확도 및 유효성 보상을 도입, MLLM의 희소 보상 문제를 효과적으로 완화하는 데 크게 기인
  • R1-VL vs SOTA MLLM
    • 추론 집약적인 벤치마크 MathVista 성능 입증
    • → StepGRPO: 단순히 긍정적인 추론 경로를 모방X, 추론 능력을 효과적으로 향상
  • R1-VL vs 폐쇄형 모델
    • 오픈소스 MLLM 이외에도 폐쇄형 모델에 비해 경쟁력 있는 결과
    • 거의 GPT-4o 정확도에 거의 근접

 

 

4.4 Ablation Study

이하 생략..