mulberry1 Mulberry: Empowering MLLM with o1-like Reasoning and Reflection via Collective Monte Carlo Tree Search 논문 리뷰 Mulberry: Empowering MLLM with o1-like Reasoning and Reflection via Collective Monte Carlo Tree Search날짜: 2025년 4월 10일https://arxiv.org/pdf/2412.18319집단 몬테 카를로 트리 검색(CoMCTS) 데이터셋을 생성하고 Mulberry-260k생성한 데이터셋으로 지도학습한 모델 Mulberry이 저자들이 Mulberry 데이터셋으로 강화학습한 논문도 3월에 나옴R1-VL: Learning to Reason with Multimodal Large Language Models via Step-wise Group Relative Policy Optimizationhttps://arxiv.org/pdf.. 2025. 4. 16. 이전 1 다음