MCTS2 Mulberry: Empowering MLLM with o1-like Reasoning and Reflection via Collective Monte Carlo Tree Search 논문 리뷰 Mulberry: Empowering MLLM with o1-like Reasoning and Reflection via Collective Monte Carlo Tree Search날짜: 2025년 4월 10일https://arxiv.org/pdf/2412.18319집단 몬테 카를로 트리 검색(CoMCTS) 데이터셋을 생성하고 Mulberry-260k생성한 데이터셋으로 지도학습한 모델 Mulberry이 저자들이 Mulberry 데이터셋으로 강화학습한 논문도 3월에 나옴R1-VL: Learning to Reason with Multimodal Large Language Models via Step-wise Group Relative Policy Optimizationhttps://arxiv.org/pdf.. 2025. 4. 16. Boosting Multimodal Reasoning with MCTS-Automated Structured Thinking 논문 리뷰 Boosting Multimodal Reasoning with MCTS-Automated Structured Thinking날짜: 2025년 3월 27일https://arxiv.org/pdf/2502.02339학습 안하고 MCTS Abstract다중 모달 대형 언어 모델(MLLMs)복잡한 시각적 추론에서 여전히 한계성능과 효율성의 균형을 맞추는 데 어려움방대한 데이터와 탐색 공간에 대한 의존도가 높아 비효율적인 암묵적 통찰력 추출과 데이터 활용을 초래AStar를 제안몬테 카를로 트리 탐색(MCTS)을 통한 다중 모달 추론자동화된 구조적 사로 패러다임→ 내부 추론 능력과 외부 추론 가이드를 원활하게 통합한 통합 추론 프레임워크를 설계→ 최소한의 트리 반복으로 효율적인 추론 1. Introduction시.. 2025. 3. 27. 이전 1 다음