본문 바로가기

Paper22

R1-VL: Learning to Reason with Multimodal Large Language Models via Step-wise Group Relative Policy Optimization 논문 리뷰 R1-VL: Learning to Reason with Multimodal Large Language Models via Step-wise Group Relative Policy Optimization날짜: 2025년 4월 17일https://arxiv.org/pdf/2503.12937Mulberry 저자 후속 논문Mulberry는 학습 데이터셋 제안, 지도 학습 모델이 논문은 Mulberry로 강화학습한 모델https://github.com/jingyi0000/R1-VLkey step 추출하는게 엄청 중요한데 아직 공개전.. 며칠전에 보상함수는 공개함멀티모달 강화학습 추론 데이터 포함 시 성능이 저하되는 경향레퍼, 논문 등에서→ 아마 본인 생각으로는 추론에 대한 보상이 딱히 없어서 그런게 아닌가 싶은→.. 2025. 5. 6.
Mulberry: Empowering MLLM with o1-like Reasoning and Reflection via Collective Monte Carlo Tree Search 논문 리뷰 Mulberry: Empowering MLLM with o1-like Reasoning and Reflection via Collective Monte Carlo Tree Search날짜: 2025년 4월 10일https://arxiv.org/pdf/2412.18319집단 몬테 카를로 트리 검색(CoMCTS) 데이터셋을 생성하고 Mulberry-260k생성한 데이터셋으로 지도학습한 모델 Mulberry이 저자들이 Mulberry 데이터셋으로 강화학습한 논문도 3월에 나옴R1-VL: Learning to Reason with Multimodal Large Language Models via Step-wise Group Relative Policy Optimizationhttps://arxiv.org/pdf.. 2025. 4. 16.
MMMU: A Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI (논문 리뷰) MMMU: A Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI날짜: 2025년 4월 3일https://arxiv.org/pdf/2311.16502CVPR 2024 Oral멀티모달 벤치마크 중 추론 벤치마크가 궁금해서 읽어봄아주 대표적인 멀티모달 추론 벤치마크입니다. (테크 리포트에서도 단골손님)거의 추론 수준의 벤치마크는 이 논문처럼 인간을 갈아서? 만드는 논문 많음 AbstractMMMU:대학 수준의 주제 지식, 추론 멀티모달 벤치마크6가지 핵심 분야: 예술 및 디자인, 비즈니스, 과학, 건강 및 의학, 인문학 및 사회 과학, 기술 및 공학대학 시험, 퀴즈 및 교과서차트, 다이어그램, 지도, .. 2025. 4. 16.
Boosting Multimodal Reasoning with MCTS-Automated Structured Thinking 논문 리뷰 Boosting Multimodal Reasoning with MCTS-Automated Structured Thinking날짜: 2025년 3월 27일https://arxiv.org/pdf/2502.02339학습 안하고 MCTS  Abstract다중 모달 대형 언어 모델(MLLMs)복잡한 시각적 추론에서 여전히 한계성능과 효율성의 균형을 맞추는 데 어려움방대한 데이터와 탐색 공간에 대한 의존도가 높아 비효율적인 암묵적 통찰력 추출과 데이터 활용을 초래AStar를 제안몬테 카를로 트리 탐색(MCTS)을 통한 다중 모달 추론자동화된 구조적 사로 패러다임→ 내부 추론 능력과 외부 추론 가이드를 원활하게 통합한 통합 추론 프레임워크를 설계→ 최소한의 트리 반복으로 효율적인 추론  1. Introduction시.. 2025. 3. 27.
R1-Zero’s “Aha Moment” in Visual Reasoning on a 2B Non-SFT Model 논문 리뷰 R1-Zero’s “Aha Moment” in Visual Reasoning on a 2B Non-SFT Model날짜: 2025년 3월 20일https://arxiv.org/pdf/2503.05132아직 연구 중이라고 함Awesome MLLM Reasoning 찾음https://github.com/HJYao00/Awesome-Reasoning-MLLM?tab=readme-ov-file거기서 찾은 논문이 본 논문open_r1 이라고 huggingface에서 deepseek r1 재현하기 위해 판 레퍼가 있음 https://github.com/huggingface/open-r1 AbstractDeepSeek-R1간단한 규칙 기반 보상을 통한 강화 학습 → 복잡한 추론훈련 중에 자기 반성 및 응답 길이 증가.. 2025. 3. 27.
Visual-RFT: Visual Reinforcement Fine-Tuning 논문 읽기 Visual-RFT: Visual Reinforcement Fine-Tuning날짜: 2025년 3월 6일https://arxiv.org/pdf/2503.01785허페 daily 1등 했던 논문인데 (지금은 phi4에 밀려서 2등 되긴 했는데..) Visual 쪽으로 RFT 논문 자체가 별로 없어서 읽어보았습니다 :) 논문 고도화해서 졸업 논문으로 Visul RFT + TTC 쪽으로 쓰려고 해서 읽는 중입니다.deepseek R1 을 포함해서 요즘 추론용 모델들이 핫해지면서강화학습 쪽이 완전 핫해졌어용..강화학습 왜 해,, 라고 생각했는데 제가 하게 되었네용..강화학습 스터디도 할 예정..! (일 벌리기 달인 ^^)대박인데의문인점은 이런식으로 비교하는 게 맞을까 싶음강화학습에 중점된 학습 방식으로 강화학.. 2025. 3. 9.
Multimodal Chain-of-Thought Reasoning in Language Models (논문 읽기) Multimodal Chain-of-Thought Reasoning in Language Models날짜: 2025년 2월 13일https://arxiv.org/pdf/2302.00923TMLR 2024(2023)요즘 인정받는 저널Neurips, icml ,iclr, ( aistats, colt, uai )~> tmlr >> aaai >>ijcai 라는 커뮤니티 글을 본 적이 있음Openreview 씀MemeMQA 에서 하도 언급돼서 읽어보려 함엄청 유명한 논문이고 인용수 423회CoT 방법론에 대해 먼저 검증, 분석해보고 해결책을 찾아가는 방식으로 서술되어 있는데해결책을 갑자기 멀티모달(비전)을 사용하는걸로 함근거는 제시되어 있는데 CoT 두 단계 프레임워크의 완전한 해결책?이라고 보기엔 음..예전에 .. 2025. 2. 13.
MemeMQA: Multimodal Question Answering for Memes via Rationale-Based Inferencing 논문 읽기) MemeMQA: Multimodal Question Answering for Memes via Rationale-Based Inferencing날짜: 2025년 2월 6일https://aclanthology.org/2024.findings-acl.300.pdf이전ACL 2024밈 연구로 방향을 틀게 되어서 읽어본 논문밈이라는게 이미지, 텍스트 모두 이해해야하는 채널이라 멀티모달 LLM과의 조합이 좋지 않을까 싶음Multimodal COT라는 논문을 읽어야 할듯모듈식 구성이라 조금 복잡한 느낌이지만, 잘 작성된듯함.엄청 다양한 실험을 한 것이 인상깊음 (여러 요소를 고려한듯)  Abstract밈다양한 커뮤니케이션의 매체로 진화잠재적 위험성 탐구 필요성 증가기존 연구: 밈의 폐쇄된 환경에서 해악을 감지, 의.. 2025. 2. 8.
DeepSeek-R1 Incentivizing Reasoning Capability in LLMs via Reinforcement Learning (DeepSeek-R1 테크니컬 리포트 논문 읽기) DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning날짜: 2025년 1월 30일https://arxiv.org/pdf/2501.12948technical report 논문?!?! 이고 방법론까지만 읽어보았습니다.요즘 난리난 그 딥시크입니다특징으로는DeepSeek-R1-Zero: 초반 학습할 때 SFT 방식 아니고 강화학습 방식으로 학습근데 DeepSeek-R1-Zero가 몇 가지 문제가 있어서 해결방안 탐색해서 진행한게 DeepSeek-R1DeepSeek-R1에서는 콜드스타트 데이터와 강화학습을 좀 더 발전시켜서 학습 + RL 학습 성능이 수렴되면 그 이후에 추가적인 SFT 학습distillation 진행하고.. 2025. 1. 28.
How Far Are We to GPT-4V? Closing the Gap to Commercial Multimodal Models with Open-Source Suites (InternVL1.5 논문 읽기) How Far Are We to GPT-4V? Closing the Gap to Commercial Multimodal Models with Open-Source Suites날짜: 2025년 1월 23일https://arxiv.org/pdf/2404.16821CVPR 2024 OralLLaVA 아키텍처가 아닌 InternVL 을 사용한 논문이 있어서 궁금해서 읽어봄LLaVA 랑 다른 점은 인코더를 강화시키는 부분 (파라미터 크게, 지속적으로 학습 강조, freeze 안하고 같이 학습함)이 논문은 InternVL 1.5인데 현재는 2.5까지 나온 상황LLaVA github star 21.2k, InternVL 6.9k AbstractInternVL 1.5오픈 소스 멀티모달 대규모 언어 모델(MLLM)오픈 .. 2025. 1. 24.
LLaVA-Mini: Efficient Image and Video Large Multimodal Models with One Vision Token 논문 읽기 LLaVA-Mini: Efficient Image and Video Large Multimodal Models with One Vision Token날짜: 2025년 1월 16일https://openreview.net/forum?id=UQJ7CDW8nbICLR 2025 under review깃허브가 살짝 유명함대규모 멀티모달 모델을 MLLM, VLM 이라고 안하고 LMM이라고 함aihub 서버를 사용해야하는 상황인데 gpu 메모리가 32기가라 LLaVA 경량 방안을 알아보고 있는 중 (LLaVA 7b 기준 batch 1로 학습해도 37기가 이상 점유)근데 이 논문은 작게 서빙(추론)할 수 있는거에 의의가 있지 학습에는 오히려 학습할거 더 많아서 사용은 보류.. (추론 성능이 좋은 것 같음, 특히 비디오 .. 2025. 1. 15.
LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day (논문 리뷰) LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day날짜: 2025년 1월 9일NeurIPS 2023https://arxiv.org/pdf/2306.00890마이크로소프트에서 작성한 논문LLaVA 깃허브에서 연혁(history) 보면 LLaVA Med 도 언급되어 있음. 아마 첫 도메인 적용 예시여서 그런듯..? 아니면 협력?LLaVA NeurIPS 2023 Oral 로 발표됐는데 LLaVA-Med는 NeurIPS 2023 Spotlight로 발표됨..졸업 주제 말고 사이드로 하는거를 MRI 이미지 사용하려고 해서 읽어본 논문  Abstractbiomedical images멀티모달 대화형 AI일반 도메인의 .. 2025. 1. 9.
Benchmarking Multimodal Retrieval Augmented Generation with Dynamic VQA Dataset and Self-adaptive Planning Agent 논문 읽기 (멀티모달 RAG 벤치마크 관련) Benchmarking Multimodal Retrieval Augmented Generation with Dynamic VQA Dataset and Self-adaptive Planning Agent날짜: 2025년 1월 2일https://arxiv.org/pdf/2411.02937ICLR 2025 Under Review휴리스틱 방식은 고정된 단계로 진행되는 기존의 검색 전략을 의미하고, OmniSearch는 이를 개선하기 위해 설계된 에이전트 기반의 동적 검색 시스템(((뒤로 갈수록 나열식으로 글이 구성되어 있음 주의))) AbstractmRAG (Multimodal Retrieval Augmented Generation): 다중 모달 대형 언어 모델(MLLMs)에 내재된 "환각" 문제를 완화하는 데.. 2025. 1. 3.
LLaVA-MoD Making LLaVA Tiny via MoE-Knowledge Distillation 논문 읽기 LLaVA-MoD: Making LLaVA Tiny via MoE-Knowledge Distillation날짜: 2024년 12월 26일ICLR 2025 Under Reviewhttps://openreview.net/pdf?id=uWtLOy35WD 멀티모달 LLM에 Knowledge Distillation 을 접목시키는거에 관심이 있어서 읽어보게된 논문입니다.원래 아카이브에서부터 조금 주목받던 논문인데 ICLR 2025에 게재될 것 같네용   1. Introduction멀티모달 LLM은 시각 인코더와 대형 언어 모델을 통합하여 좋은 성능큰 크기, 방대한 훈련 데이터 → 챌린징 요소많은 매개변수의 수는 고급 하드웨어 필요, 느린 추론 속도 → 모바일 장치와 같은 실제 배치 작업 어려움소형 MLLM 탐색 중.. 2024. 12. 26.
Visual Instruction Tuning (LLaVA 논문 리뷰) NeurIPS 2023 (Oral)에서 발표된 논문이고,멀티모달 LLM 중에 가장 유명한 논문 중 하나입니다. 최근에 이 LLaVA 모델 아키텍처를 활용해서 여러 실험을 하고 있는데, 정리겸 해서 다시 읽어보았습니다.구현의 경우 깃허브가 워낙 잘 관리되어 있어서 아래 링크 참고부탁드립니다.(워낙 유명해서 이슈 양이 많아서 거의 다 찾을 수 있음. 구현하면서 느낀점은 거의 다 의존성 문제임. 다른 에러 메세지여도 결국 해결책은 의존성 문제, 나중에 구현 관련해서도 적어볼 수 있으면 적어보겠습니다.) https://llava-vl.github.io/ LLaVABased on the COCO dataset, we interact with language-only GPT-4, and collect 158K un.. 2024. 11. 4.
[논문 읽기 #7] Pattern-based Time Series Semantic Segmentation with Gradual State Transitions 모든 내용을 포함하고 있지 않습니다.필요&중요 포인트만 요약한 내용입니다. (발표자료였음)  Time Series Segmentation 깃헙프로젝트에서 한 시계열 안에 구간 분리(라벨)를 비지도 방식으로 진행해야해서 subsequence clustering, time series seperation 등을 찾아보다가  time series segmentation 이라는 분야가 있다는 것을 알게 되었습니다.의미론적 분할 semantic segmentation 으로도 알려져있습니다.연구와 연구의 코드가 함께 있는 괜찮은 깃헙을 찾아 첨부합니다.https://github.com/lzz19980125/awesome-time-series-segmentation-papers?tab=readme-ov-file깃헙의 .. 2024. 5. 23.
[논문 읽기 #6] SAX-VSM: Interpretable Time Series Classification Using SAX and Vector Space Model 모든 내용을 포함하고 있지 않습니다.필요&중요 포인트만 요약한 내용입니다. (발표자료였음) 아이디어는 독특했으나,, 실제로 적용 가능 여부는 미지수입니다.최근 시계열 유사도 논문 작성하면서 이 방법도 적용해봤는데, 분류 성능이 좋지 않았기 때문에..  논문 기본 정보SAX-VSM: Interpretable Time Series Classification Using SAX and Vector Space Model2013, ICDM , 379회 인용분류 목적SAX 기호 집합 근사법 Symbolic Aggregate approximationVSM 벡터 공간 모델 Vector Space Model 1. Introduction시계열 분류 알고리즘1NN성능 좋음, 적은 매개 변수 사용분류 결과 근거 제공x, 큰 훈.. 2024. 5. 23.
[논문 읽기 #5] LSTM-based Encoder-Decoder for Multi-sensor Anomaly Detection 인용수 1222회의 유명한 이상탐지 쪽 논문입니다모든 내용을 포함하고 있지 않습니다.필요&중요 포인트만 요약한 내용입니다. (발표자료였음) 논문 기본 정보 LSTM-based Encoder-Decoder for Multi-sensor Anomaly DetectionICML20161222회 인용키워드여러 이상 현상 (점차 감소, 헌팅 등) 탐지 1. Model Architecture다중 센서 시계열에서 이상 탐지를 위한 LSTM 기반 인코더-디코더 체계(EncDecAD)를 제안정상 시퀀스만 사용하여 학습LSTM 인코더: 입력 시계열의 고정 길이 벡터 표현을 학습LSTM 디코더: 표현을 사용하여 현재 숨겨진 상태와 이전 시간 단계에서 예측된 값을 사용하여 시계열을 재.. 2024. 4. 24.
[논문 읽기 #4]On the effectiveness of curriculum learning in educational text scoring [서비스 데이터 분석과 인공지능 활용] 수업을 들으면서, 팀 주제(교육)에 따라서 교수님이 논문 리스트를 주신 뒤,팀원마다 각자 원하는 논문을 선택하여, 리뷰 발표하였습니다.본 포스팅에서는 리뷰 발표 ppt를 적어보도록 하겠습니다. 본 논문의 포인트는"ATS에서 Curriculum learning"의 효과입니다모델 구조보다는 Curriculum learning에 대한 글이라고 보시면 좋을 것 같습니다.   1. IntroductionATS (Automatic Text Scoring 작문 평가 시스템): 학생들의 단답형, 개방형 질문 답, 에세이 형식과 같은 장문형 답을 평가하는 시스템 ATS 연구규칙 기반 방법머신 러닝 기법 (수작업으로 만든 특징 입력)심층 신.. 2024. 4. 24.
[논문 읽기 #3]Parallel deep prediction with covariance intersection fusion on non-stationary time series 모든 내용을 포함하고 있지 않습니다. 필요&중요 포인트만 요약한 내용입니다. (발표자료였음) 특히 공분산 교차에 대해 주로 작성됨 (여러 시계열 n개 (n값은 변동)를 하나의 표현으로 만드는 것에 관심이 있는 요즘..) 논문 기본 정보 Parallel deep prediction with covariance intersection fusion on non-stationary time series Science Direct, Knowledge-Based Systems (IF 8.8) 2021년, 26회 인용 키워드 Time series prediction Deep learning Information fusion Multiple models Introduction 시계열 예측 어려움: 비선형 및 비고정 특.. 2024. 4. 3.