본문 바로가기

lvlm3

Boosting Multimodal Reasoning with MCTS-Automated Structured Thinking 논문 리뷰 Boosting Multimodal Reasoning with MCTS-Automated Structured Thinking날짜: 2025년 3월 27일https://arxiv.org/pdf/2502.02339학습 안하고 MCTS  Abstract다중 모달 대형 언어 모델(MLLMs)복잡한 시각적 추론에서 여전히 한계성능과 효율성의 균형을 맞추는 데 어려움방대한 데이터와 탐색 공간에 대한 의존도가 높아 비효율적인 암묵적 통찰력 추출과 데이터 활용을 초래AStar를 제안몬테 카를로 트리 탐색(MCTS)을 통한 다중 모달 추론자동화된 구조적 사로 패러다임→ 내부 추론 능력과 외부 추론 가이드를 원활하게 통합한 통합 추론 프레임워크를 설계→ 최소한의 트리 반복으로 효율적인 추론  1. Introduction시.. 2025. 3. 27.
R1-Zero’s “Aha Moment” in Visual Reasoning on a 2B Non-SFT Model 논문 리뷰 R1-Zero’s “Aha Moment” in Visual Reasoning on a 2B Non-SFT Model날짜: 2025년 3월 20일https://arxiv.org/pdf/2503.05132아직 연구 중이라고 함Awesome MLLM Reasoning 찾음https://github.com/HJYao00/Awesome-Reasoning-MLLM?tab=readme-ov-file거기서 찾은 논문이 본 논문open_r1 이라고 huggingface에서 deepseek r1 재현하기 위해 판 레퍼가 있음 https://github.com/huggingface/open-r1 AbstractDeepSeek-R1간단한 규칙 기반 보상을 통한 강화 학습 → 복잡한 추론훈련 중에 자기 반성 및 응답 길이 증가.. 2025. 3. 27.
Visual-RFT: Visual Reinforcement Fine-Tuning 논문 읽기 Visual-RFT: Visual Reinforcement Fine-Tuning날짜: 2025년 3월 6일https://arxiv.org/pdf/2503.01785허페 daily 1등 했던 논문인데 (지금은 phi4에 밀려서 2등 되긴 했는데..) Visual 쪽으로 RFT 논문 자체가 별로 없어서 읽어보았습니다 :) 논문 고도화해서 졸업 논문으로 Visul RFT + TTC 쪽으로 쓰려고 해서 읽는 중입니다.deepseek R1 을 포함해서 요즘 추론용 모델들이 핫해지면서강화학습 쪽이 완전 핫해졌어용..강화학습 왜 해,, 라고 생각했는데 제가 하게 되었네용..강화학습 스터디도 할 예정..! (일 벌리기 달인 ^^)대박인데의문인점은 이런식으로 비교하는 게 맞을까 싶음강화학습에 중점된 학습 방식으로 강화학.. 2025. 3. 9.