본문 바로가기

LLM4

Test-time-computing에 대하여 (허깅페이스 블로그 포스트 정리) Test-time-computing날짜: 2025년 2월 27일https://huggingface.co/spaces/HuggingFaceH4/blogpost-scaling-test-time-compute전반적인 TTC 내용 개요대형 언어 모델(LLM)의 발전컴퓨팅 자원 확장이 큰 영향 → 큰 모델 훈련 = 지나치게 비쌈보조적인 접근법인 테스트 시간 컴퓨팅 확장에 대한 관심 증가큰 훈련 예산을 사용하는 대신, 모델이 어려운 문제를 풀 때 더 긴 시간을 들여 생각할 수 있게 하는 동적인 추론 전략을 사용그 중 하나가 OpenAI의 o1 모델로, 테스트 시간 컴퓨팅을 늘림으로써 어려운 수학 문제에서 일관되게 성능이 향상 DeepMind의 최근 연구: 테스트 시간 컴퓨팅을 최적으로 확장할 수 있는 전략 제시.. 2025. 3. 27.

How Far Are We to GPT-4V? Closing the Gap to Commercial Multimodal Models with Open-Source Suites (InternVL1.5 논문 읽기) How Far Are We to GPT-4V? Closing the Gap to Commercial Multimodal Models with Open-Source Suites날짜: 2025년 1월 23일https://arxiv.org/pdf/2404.16821CVPR 2024 OralLLaVA 아키텍처가 아닌 InternVL 을 사용한 논문이 있어서 궁금해서 읽어봄LLaVA 랑 다른 점은 인코더를 강화시키는 부분 (파라미터 크게, 지속적으로 학습 강조, freeze 안하고 같이 학습함)이 논문은 InternVL 1.5인데 현재는 2.5까지 나온 상황LLaVA github star 21.2k, InternVL 6.9k AbstractInternVL 1.5오픈 소스 멀티모달 대규모 언어 모델(MLLM)오픈 .. 2025. 1. 24.

LLaVA-Mini: Efficient Image and Video Large Multimodal Models with One Vision Token 논문 읽기 LLaVA-Mini: Efficient Image and Video Large Multimodal Models with One Vision Token날짜: 2025년 1월 16일https://openreview.net/forum?id=UQJ7CDW8nbICLR 2025 under review깃허브가 살짝 유명함대규모 멀티모달 모델을 MLLM, VLM 이라고 안하고 LMM이라고 함aihub 서버를 사용해야하는 상황인데 gpu 메모리가 32기가라 LLaVA 경량 방안을 알아보고 있는 중 (LLaVA 7b 기준 batch 1로 학습해도 37기가 이상 점유)근데 이 논문은 작게 서빙(추론)할 수 있는거에 의의가 있지 학습에는 오히려 학습할거 더 많아서 사용은 보류.. (추론 성능이 좋은 것 같음, 특히 비디오 .. 2025. 1. 15.

[공부log 24.07.12]방학 한 달 후기, 연합 동아리, 연구 근황(LLM, 랭체인), 논문 찾는 법 써야지 써야지 했는데이것만 하고 써야지 이것만 돌리고 써야지 하다가 영원히 블로그를 못 쓸 것 같아서 그냥 쓰는 일상글방학 한달 간단 회고 겸 근황을 작성해보려고 한다. 1. 내가 생각한 방학은 이게 아니였는데..방학 초반 엄청나게 스트레스를 받았다. 건강에 신호가 올만큼 스트레스를 엄청 받았는데그 이유는 방학에 대한 환상과 기대가 컸기 때문..ㅎㅎ...어찌보면 당연한데..방학 시작하니 원하던 개인공부는 뒷전이 되고 프로젝트와 다시 논문 쓰기에 돌입하게 되었다. 너무 큰 환상과 꿈에 부풀어 있었다고 생각..그렇다고 방학 계획을 완전히 포기한 것은 아니고,, 욕심을 어느정도 내려놓기로 했다 그래서 오늘부로 정처기 실기 접수 취소함뭐 아래 이야기 나오겠지만 이번달에 연합동아리를 시작하기 때문에 너무.. 2024. 7. 12.

이전 1 다음

티스토리툴바