본문 바로가기

Llava4

LLaVA-Mini: Efficient Image and Video Large Multimodal Models with One Vision Token 논문 읽기 LLaVA-Mini: Efficient Image and Video Large Multimodal Models with One Vision Token날짜: 2025년 1월 16일https://openreview.net/forum?id=UQJ7CDW8nbICLR 2025 under review깃허브가 살짝 유명함대규모 멀티모달 모델을 MLLM, VLM 이라고 안하고 LMM이라고 함aihub 서버를 사용해야하는 상황인데 gpu 메모리가 32기가라 LLaVA 경량 방안을 알아보고 있는 중 (LLaVA 7b 기준 batch 1로 학습해도 37기가 이상 점유)근데 이 논문은 작게 서빙(추론)할 수 있는거에 의의가 있지 학습에는 오히려 학습할거 더 많아서 사용은 보류.. (추론 성능이 좋은 것 같음, 특히 비디오 .. 2025. 1. 15.
LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day (논문 리뷰) LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day날짜: 2025년 1월 9일NeurIPS 2023https://arxiv.org/pdf/2306.00890마이크로소프트에서 작성한 논문LLaVA 깃허브에서 연혁(history) 보면 LLaVA Med 도 언급되어 있음. 아마 첫 도메인 적용 예시여서 그런듯..? 아니면 협력?LLaVA NeurIPS 2023 Oral 로 발표됐는데 LLaVA-Med는 NeurIPS 2023 Spotlight로 발표됨..졸업 주제 말고 사이드로 하는거를 MRI 이미지 사용하려고 해서 읽어본 논문  Abstractbiomedical images멀티모달 대화형 AI일반 도메인의 .. 2025. 1. 9.
LLaVA-MoD Making LLaVA Tiny via MoE-Knowledge Distillation 논문 읽기 LLaVA-MoD: Making LLaVA Tiny via MoE-Knowledge Distillation날짜: 2024년 12월 26일ICLR 2025 Under Reviewhttps://openreview.net/pdf?id=uWtLOy35WD 멀티모달 LLM에 Knowledge Distillation 을 접목시키는거에 관심이 있어서 읽어보게된 논문입니다.원래 아카이브에서부터 조금 주목받던 논문인데 ICLR 2025에 게재될 것 같네용   1. Introduction멀티모달 LLM은 시각 인코더와 대형 언어 모델을 통합하여 좋은 성능큰 크기, 방대한 훈련 데이터 → 챌린징 요소많은 매개변수의 수는 고급 하드웨어 필요, 느린 추론 속도 → 모바일 장치와 같은 실제 배치 작업 어려움소형 MLLM 탐색 중.. 2024. 12. 26.
Visual Instruction Tuning (LLaVA 논문 리뷰) NeurIPS 2023 (Oral)에서 발표된 논문이고,멀티모달 LLM 중에 가장 유명한 논문 중 하나입니다. 최근에 이 LLaVA 모델 아키텍처를 활용해서 여러 실험을 하고 있는데, 정리겸 해서 다시 읽어보았습니다.구현의 경우 깃허브가 워낙 잘 관리되어 있어서 아래 링크 참고부탁드립니다.(워낙 유명해서 이슈 양이 많아서 거의 다 찾을 수 있음. 구현하면서 느낀점은 거의 다 의존성 문제임. 다른 에러 메세지여도 결국 해결책은 의존성 문제, 나중에 구현 관련해서도 적어볼 수 있으면 적어보겠습니다.) https://llava-vl.github.io/ LLaVABased on the COCO dataset, we interact with language-only GPT-4, and collect 158K un.. 2024. 11. 4.