본문 바로가기

논문리뷰4

How Far Are We to GPT-4V? Closing the Gap to Commercial Multimodal Models with Open-Source Suites (InternVL1.5 논문 읽기) How Far Are We to GPT-4V? Closing the Gap to Commercial Multimodal Models with Open-Source Suites날짜: 2025년 1월 23일https://arxiv.org/pdf/2404.16821CVPR 2024 OralLLaVA 아키텍처가 아닌 InternVL 을 사용한 논문이 있어서 궁금해서 읽어봄LLaVA 랑 다른 점은 인코더를 강화시키는 부분 (파라미터 크게, 지속적으로 학습 강조, freeze 안하고 같이 학습함)이 논문은 InternVL 1.5인데 현재는 2.5까지 나온 상황LLaVA github star 21.2k, InternVL 6.9k AbstractInternVL 1.5오픈 소스 멀티모달 대규모 언어 모델(MLLM)오픈 .. 2025. 1. 24.
LLaVA-Mini: Efficient Image and Video Large Multimodal Models with One Vision Token 논문 읽기 LLaVA-Mini: Efficient Image and Video Large Multimodal Models with One Vision Token날짜: 2025년 1월 16일https://openreview.net/forum?id=UQJ7CDW8nbICLR 2025 under review깃허브가 살짝 유명함대규모 멀티모달 모델을 MLLM, VLM 이라고 안하고 LMM이라고 함aihub 서버를 사용해야하는 상황인데 gpu 메모리가 32기가라 LLaVA 경량 방안을 알아보고 있는 중 (LLaVA 7b 기준 batch 1로 학습해도 37기가 이상 점유)근데 이 논문은 작게 서빙(추론)할 수 있는거에 의의가 있지 학습에는 오히려 학습할거 더 많아서 사용은 보류.. (추론 성능이 좋은 것 같음, 특히 비디오 .. 2025. 1. 15.
[논문 읽기 #5] LSTM-based Encoder-Decoder for Multi-sensor Anomaly Detection 인용수 1222회의 유명한 이상탐지 쪽 논문입니다모든 내용을 포함하고 있지 않습니다.필요&중요 포인트만 요약한 내용입니다. (발표자료였음) 논문 기본 정보 LSTM-based Encoder-Decoder for Multi-sensor Anomaly DetectionICML20161222회 인용키워드여러 이상 현상 (점차 감소, 헌팅 등) 탐지 1. Model Architecture다중 센서 시계열에서 이상 탐지를 위한 LSTM 기반 인코더-디코더 체계(EncDecAD)를 제안정상 시퀀스만 사용하여 학습LSTM 인코더: 입력 시계열의 고정 길이 벡터 표현을 학습LSTM 디코더: 표현을 사용하여 현재 숨겨진 상태와 이전 시간 단계에서 예측된 값을 사용하여 시계열을 재.. 2024. 4. 24.
[논문 읽기 #4]On the effectiveness of curriculum learning in educational text scoring [서비스 데이터 분석과 인공지능 활용] 수업을 들으면서, 팀 주제(교육)에 따라서 교수님이 논문 리스트를 주신 뒤,팀원마다 각자 원하는 논문을 선택하여, 리뷰 발표하였습니다.본 포스팅에서는 리뷰 발표 ppt를 적어보도록 하겠습니다. 본 논문의 포인트는"ATS에서 Curriculum learning"의 효과입니다모델 구조보다는 Curriculum learning에 대한 글이라고 보시면 좋을 것 같습니다.   1. IntroductionATS (Automatic Text Scoring 작문 평가 시스템): 학생들의 단답형, 개방형 질문 답, 에세이 형식과 같은 장문형 답을 평가하는 시스템 ATS 연구규칙 기반 방법머신 러닝 기법 (수작업으로 만든 특징 입력)심층 신.. 2024. 4. 24.