멀티모달6 Visual-RFT: Visual Reinforcement Fine-Tuning 논문 읽기 Visual-RFT: Visual Reinforcement Fine-Tuning날짜: 2025년 3월 6일https://arxiv.org/pdf/2503.01785허페 daily 1등 했던 논문인데 (지금은 phi4에 밀려서 2등 되긴 했는데..) Visual 쪽으로 RFT 논문 자체가 별로 없어서 읽어보았습니다 :) 논문 고도화해서 졸업 논문으로 Visul RFT + TTC 쪽으로 쓰려고 해서 읽는 중입니다.deepseek R1 을 포함해서 요즘 추론용 모델들이 핫해지면서강화학습 쪽이 완전 핫해졌어용..강화학습 왜 해,, 라고 생각했는데 제가 하게 되었네용..강화학습 스터디도 할 예정..! (일 벌리기 달인 ^^)대박인데의문인점은 이런식으로 비교하는 게 맞을까 싶음강화학습에 중점된 학습 방식으로 강화학.. 2025. 3. 9. Multimodal Chain-of-Thought Reasoning in Language Models (논문 읽기) Multimodal Chain-of-Thought Reasoning in Language Models날짜: 2025년 2월 13일https://arxiv.org/pdf/2302.00923TMLR 2024(2023)요즘 인정받는 저널Neurips, icml ,iclr, ( aistats, colt, uai )~> tmlr >> aaai >>ijcai 라는 커뮤니티 글을 본 적이 있음Openreview 씀MemeMQA 에서 하도 언급돼서 읽어보려 함엄청 유명한 논문이고 인용수 423회CoT 방법론에 대해 먼저 검증, 분석해보고 해결책을 찾아가는 방식으로 서술되어 있는데해결책을 갑자기 멀티모달(비전)을 사용하는걸로 함근거는 제시되어 있는데 CoT 두 단계 프레임워크의 완전한 해결책?이라고 보기엔 음..예전에 .. 2025. 2. 13. How Far Are We to GPT-4V? Closing the Gap to Commercial Multimodal Models with Open-Source Suites (InternVL1.5 논문 읽기) How Far Are We to GPT-4V? Closing the Gap to Commercial Multimodal Models with Open-Source Suites날짜: 2025년 1월 23일https://arxiv.org/pdf/2404.16821CVPR 2024 OralLLaVA 아키텍처가 아닌 InternVL 을 사용한 논문이 있어서 궁금해서 읽어봄LLaVA 랑 다른 점은 인코더를 강화시키는 부분 (파라미터 크게, 지속적으로 학습 강조, freeze 안하고 같이 학습함)이 논문은 InternVL 1.5인데 현재는 2.5까지 나온 상황LLaVA github star 21.2k, InternVL 6.9k AbstractInternVL 1.5오픈 소스 멀티모달 대규모 언어 모델(MLLM)오픈 .. 2025. 1. 24. LLaVA-Mini: Efficient Image and Video Large Multimodal Models with One Vision Token 논문 읽기 LLaVA-Mini: Efficient Image and Video Large Multimodal Models with One Vision Token날짜: 2025년 1월 16일https://openreview.net/forum?id=UQJ7CDW8nbICLR 2025 under review깃허브가 살짝 유명함대규모 멀티모달 모델을 MLLM, VLM 이라고 안하고 LMM이라고 함aihub 서버를 사용해야하는 상황인데 gpu 메모리가 32기가라 LLaVA 경량 방안을 알아보고 있는 중 (LLaVA 7b 기준 batch 1로 학습해도 37기가 이상 점유)근데 이 논문은 작게 서빙(추론)할 수 있는거에 의의가 있지 학습에는 오히려 학습할거 더 많아서 사용은 보류.. (추론 성능이 좋은 것 같음, 특히 비디오 .. 2025. 1. 15. LLaVA-MoD Making LLaVA Tiny via MoE-Knowledge Distillation 논문 읽기 LLaVA-MoD: Making LLaVA Tiny via MoE-Knowledge Distillation날짜: 2024년 12월 26일ICLR 2025 Under Reviewhttps://openreview.net/pdf?id=uWtLOy35WD 멀티모달 LLM에 Knowledge Distillation 을 접목시키는거에 관심이 있어서 읽어보게된 논문입니다.원래 아카이브에서부터 조금 주목받던 논문인데 ICLR 2025에 게재될 것 같네용 1. Introduction멀티모달 LLM은 시각 인코더와 대형 언어 모델을 통합하여 좋은 성능큰 크기, 방대한 훈련 데이터 → 챌린징 요소많은 매개변수의 수는 고급 하드웨어 필요, 느린 추론 속도 → 모바일 장치와 같은 실제 배치 작업 어려움소형 MLLM 탐색 중.. 2024. 12. 26. Visual Instruction Tuning (LLaVA 논문 리뷰) NeurIPS 2023 (Oral)에서 발표된 논문이고,멀티모달 LLM 중에 가장 유명한 논문 중 하나입니다. 최근에 이 LLaVA 모델 아키텍처를 활용해서 여러 실험을 하고 있는데, 정리겸 해서 다시 읽어보았습니다.구현의 경우 깃허브가 워낙 잘 관리되어 있어서 아래 링크 참고부탁드립니다.(워낙 유명해서 이슈 양이 많아서 거의 다 찾을 수 있음. 구현하면서 느낀점은 거의 다 의존성 문제임. 다른 에러 메세지여도 결국 해결책은 의존성 문제, 나중에 구현 관련해서도 적어볼 수 있으면 적어보겠습니다.) https://llava-vl.github.io/ LLaVABased on the COCO dataset, we interact with language-only GPT-4, and collect 158K un.. 2024. 11. 4. 이전 1 다음