MLLM1 How Far Are We to GPT-4V? Closing the Gap to Commercial Multimodal Models with Open-Source Suites (InternVL1.5 논문 읽기) How Far Are We to GPT-4V? Closing the Gap to Commercial Multimodal Models with Open-Source Suites날짜: 2025년 1월 23일https://arxiv.org/pdf/2404.16821CVPR 2024 OralLLaVA 아키텍처가 아닌 InternVL 을 사용한 논문이 있어서 궁금해서 읽어봄LLaVA 랑 다른 점은 인코더를 강화시키는 부분 (파라미터 크게, 지속적으로 학습 강조, freeze 안하고 같이 학습함)이 논문은 InternVL 1.5인데 현재는 2.5까지 나온 상황LLaVA github star 21.2k, InternVL 6.9k AbstractInternVL 1.5오픈 소스 멀티모달 대규모 언어 모델(MLLM)오픈 .. 2025. 1. 24. 이전 1 다음