Multimodal Chain-of-Thought Reasoning in Language Models
날짜: 2025년 2월 13일
- https://arxiv.org/pdf/2302.00923
- TMLR 2024(2023)
- 요즘 인정받는 저널
- Neurips, icml ,iclr, ( aistats, colt, uai )~> tmlr >> aaai >>ijcai 라는 커뮤니티 글을 본 적이 있음
- Openreview 씀
- MemeMQA 에서 하도 언급돼서 읽어보려 함
- 엄청 유명한 논문이고 인용수 423회
- CoT 방법론에 대해 먼저 검증, 분석해보고 해결책을 찾아가는 방식으로 서술되어 있는데
- 해결책을 갑자기 멀티모달(비전)을 사용하는걸로 함
- 근거는 제시되어 있는데 CoT 두 단계 프레임워크의 완전한 해결책?이라고 보기엔 음..
- 예전에 대회 나갔을 때 저런 두 단계 방식으로 CoT 적용하면 성능 오히려 내려갔었는데 그게 실험 결과로 나와있으니 반갑기도..? 하고 진짜네 싶기도 함
- 요즘 대규모 멀티모달 LLM이 워낙 많이 나와서 또 다르게 One stage 쓰는게 더 적합할 수도 있겠다는 생각..
Abstract
- 사고의 연쇄(chain-of-thought, CoT) 추론: 복잡한 추론에서 인상적인 성능
- 기존 CoT 연구: 주로 언어 모달리티에 중점
- 본 연구: 언어(텍스트)와 비전(이미지) 모달리티를 통합, 근거 생성과 답변 유추를 분리하는 두 단계 프레임워크 멀티모달-CoT를 제안
- ScienceQA와 A-OKVQA 벤치마크 데이터셋에 대한 실험 결과는 우리가 제안한 접근 방식의 효과
- 멀티모달-CoT가 환각을 완화하고 수렴 속도를 향상시키는 이점을 제공
1. Introduction
- 기존 CoT 추론과 관련된 연구: 대체로 언어 모달리티에 국한
- 본 연구: Multimodal-CoT 패러다임 제안
- 다단계 문제를 중간 추론 단계(이유)로 분해 → 답 추론
- 두 가지 모달리티에 중점: 비전과 언어
- Multimodal-CoT 추론은 두 가지 주요 패러다임을 통해
- (i) 대규모 언어 모델(LLM)을 프롬프트
- 서로 다른 모달리티의 입력을 통합 모달리티로 변환
- LLM에게 CoT를 수행하도록 프롬프트하는 것
- 이미지에 대한 캡션 생성 → 원래 텍스트와 결합하여 LLM에 입력
- 여전히 비전 신호를 텍스트 설명으로 변환할 때 상당한 정보 손실을 초래
- (ii) 작은 모델을 파인튜닝
- 모델 아키텍처를 조정할 유연성을 제공
- hallucination 경향 있음
- hallucination를 완화하기 위해 언어(텍스트)와 비전(이미지) 모달리티를 통합한 멀티모달-CoT를 제안
- 생성을 분리하여 답변 추론이 이루어지는 두 단계 프레임워크
- (i) 대규모 언어 모델(LLM)을 프롬프트
- 기여점
- 다양한 모달리티의 CoT 추론에 대한 첫 번째 연구
- 언어 모델을 파인튜닝하여 비전과 언어 표현을 융합하는 두 단계 프레임워크를 제안
- 나이브한 방법으로 CoT를 사용하는 것이 실패하는 이유와 비전 기능을 통합
`
2. Background
2.1 LLM과 함께하는 CoT 추론
- 최근 CoT는 LLM의 다단계 추론 능력을 이끌어내기 위해 널리 사용 중
- CoT 기법은 LLM이 문제를 해결하기 위한 중간 추론 체인을 생성하도록 장려
- 두 가지 주요 기법: 제로샷(CoT)과 소수샷(CoT)으로 CoT 추론을 수행
- 제로샷(CoT): “단계별로 생각해 보자”라는 프롬프트를 테스트 질문 뒤에 추가해 CoT 추론을 유도
- 소수샷(CoT): 몇 가지 단계별 추론 시연이 추론 조건으로 사용
- 각 시연에는 질문과 최종 답변으로 이어지는 추론 체인이 포함
- 일반적으로 수작업으로 제작되거나 자동 생성
- 수작업 제작과 자동 생성을 각각 수동(CoT)과 자동(CoT)으로 지칭
- 최근 대부분의 연구는 소수샷(CoT)을 개선하는 데 초점 → 두 가지 주요 연구 방향으로 분류:
- → (i) 시연 최적화; (ii) 추론 체인 최적화
- Optimizing Demonstrations
- demonstrations: 시연, LLM이 문제를 풀 때 참고할 수 있도록 제공되는 질문과 이에 대한 단계별 추론 과정 및 정답의 예제들
- 소수샷(CoT)의 성능은 시연의 질에 따라 달라짐
- 서로 다른 주석자가 작성한 시연을 사용할 경우 추론 작업에서 정확도가 크게 차이
- 시연을 수작업으로 제작하는 것을 넘어, 최근 연구는 시연 선택 과정 최적화 방법을 조사
- 주어진 데이터셋의 질문을 몇 개의 클러스터로 나누고
- 각 클러스터에서 대표적인 질문을 샘플링하여
- 제로샷(CoT)와 단순한 휴리스틱을 사용하여 그 추론 체인을 생성하는 방법을 제안
- 효과적인 시연을 얻기 위해 강화 학습(RL) 및 복잡성 기반 선택 전략이 제안
- Fu et al. (2022): 복잡한 추론 체인(즉, 더 많은 추론 단계를 가진) 예제를 시연 선택
- Lu et al. (2022b): 후보 풀에서 최적의 맥락 내 예제를 찾아내고 GPT-3.5와 상호작용하면서 주어진 훈련 예제에서 예측 보상을 극대화하는 에이전트를 훈련
- Optimizing Reasoning Chains
- 추론 체인 최적화 방법: 문제 분해
- Zhou et al. (2022): 복잡한 문제를 하위 문제로 분해한 다음 이러한 하위 문제를 순차적으로 해결하는 최소에서 최대 프롬프트를 제안
- Khot et al. (2022): 다양한 분해 구조를 사용하고 각 하위 질문에 대한 답변을 위해 서로 다른 프롬프트를 설계
- Program-of-Thoughts
- Chen et al. (2022): 사고 프로그램(Program-of-Thoughts, PoT)을 제안하여 추론 과정을 프로그램으로 모델링, LLM이 생성된 프로그램을 실행하여 답변을 도출하도록 유도
- 테스트 질문에 대해 여러 추론 경로를 투표하는 것
- Wang et al. (2022b): LLM의 여러 출력을 샘플링한 다음 최종 답변에 대해 다수결을 적용하는 자기 일관성 디코딩 전략을 도입
- Wang et al. (2022c)와 Li et al. (2022c): 입력 공간에 무작위성을 도입하여 투표를 위해 보다 다양한 출력을 생성
- 추론 체인 최적화 방법: 문제 분해
2.2 Eliciting CoT Reasoning by Fine-Tuning Models
- 언어 모델 미세 조정을 통해 CoT 추론 생성
- Lu et al. (2022a):
- CoT 주석이 있는 대규모 데이터셋에서 인코더-디코더 T5 모델을 미세 조정
- 그러나, CoT를 사용하여 답변을 유추할 때 급격한 성능 저하
- 답변(추론) 이전에 추론 체인을 생성, CoT는 답변 이후에 설명으로만 사용
- Magister et al. (2022)와 Ho et al. (2022): 큰 교사 모델이 생성한 사고의 연쇄(output)를 기반으로 학생 모델을 미세 조정하여 지식 증류를 적용
- Wang et al. (2022a): 현재 단계의 맥락에 조건화된 프롬프트를 동적으로 합성하는 반복적인 맥락 인식 촉구 방법을 제안
- Lu et al. (2022a):
- 1B 모델의 문제점
- 1B 모델이 효과적인 CoT를 생성하는 것은 답변을 직접 생성하는 것보다 더 어려울 수 있음
3. Challenge of Multimodal-CoT
- 기존 연구: 1000억 개의 파라미터 이상에서 언어 모델에서 CoT 추론 능력이 나타날 수 있다고 제안
- 1B 모델에서 이러한 추론 능력을 끌어내는 것은 여전히 해결되지 않은 도전 과제
- 1B 모델이 CoT 추론에서 실패하는 이유를 조사
- 효과적인 접근 방식을 설계하는 방법을 연구
3.1 Towards the Role of CoT
- ScienceQA 벤치마크에 대한 CoT 추론을 위해 텍스트 전용 기준 모델을 미세 조정
- FLAN-AlpacaBase를 기본 언어 모델로 채택
- 텍스트 생성 문제로 모델이 텍스트 정보를 입력으로 받아 합리적 설명과 답변으로 구성된 출력 시퀀스를 생성하도록 하는 것
- CoT의 효과를 연구하기 위해 세 가지 변형과 성능을 비교
- 질문 텍스트(Q), 맥락 텍스트(C) 및 여러 선택지(M)의 토큰을 연결한 것을 입력
- (i) No-CoT는 답변을 직접 예측하는 방식(QCM→A)
- (ii) Reasoning은 답변 추론이 합리적 설명에 조건화된 방식(QCM→RA)
- (iii) Explanation은 합리적 설명을 답변 추론을 설명하는 데 사용하는 방식(QCM→AR)
- 결과
- 모델이 정답을 예측하기 전에 근거(rationales)를 예측하도록 설정하면(QCM → RA), 정확도가 12.31% 감소(81.63% → 69.32%)하는 것을 관찰
- 근거가 반드시 올바른 답을 예측하는 데 기여하지 않을 수도 있음을 암시
- Lu et al. (2022a): 모델이 필요한 답을 얻기 전에 최대 토큰 한도를 초과하거나 예측 생성을 조기에 중단하기 때문
- 그러나, 본 연구 생성된 출력(RA)의 최대 길이가 항상 400 토큰 미만, 언어 모델(T5 모델의 경우 512)의 길이 한도보다 낮다는 것을 발견
- 모델이 정답을 예측하기 전에 근거(rationales)를 예측하도록 설정하면(QCM → RA), 정확도가 12.31% 감소(81.63% → 69.32%)하는 것을 관찰
3.2 Misleading by Hallucinated Rationales
- 근거(rationales)가 답변 예측에 어떻게 영향을 미치는지 더 깊이 탐구
- CoT 문제를 근거 생성(rationale generation)과 답변 추론(answer inference)의 두 단계로 나눔
- RougeL 점수와 정확도
- Table 3: 근거 생성에서 90.73 RougeL 점수를 달성했음에도, 답변 추론 정확도는 78.57%
- Table 2: QCM→A 변형(81.63%)과 비교했을 때, 이러한 결과는 두 단계 프레임워크에서 생성된 근거가 답변 정확도를 향상시키지 못했음
- 50개의 오류 사례를 무작위로 샘플링한 결과
- 모델이 환각된(hallucinated) 근거를 생성하여 답변 추론을 잘못 이끄는 경향
- Figure 2: 환각된 근거를 생성, 이는 시각적 콘텐츠에 대한 참조가 부족했기 때문
3.3 Multimodality Contributes to Effective Rationales
- 환각 현상이 효과적인 Multimodal-CoT를 수행하기 위해 필요한 시각적 맥락이 부족하기 때문이라고 추측
- 시각 정보를 주입하기 위한 간단한 방법: 이미지를 캡션으로 변환 후 두 단계의 입력에 추가하는 것
- 그러나, Table3: 캡션만 사용하는 것은 미미한 성능 향상(↑0.80%)
- → 언어 모델에 비전 기능을 통합하는 고급 기술을 탐색
- 이미지를 ViT 모델에 입력, 시각 특징 추출
- 디코더에 입력하기 전에 비전 기능과 인코딩된 언어 표현을 융합
- 시각 특징 사용한 결과
- 근거 생성의 RougeL 점수가 93.46%로 증가 (QCM→R)
- 이에 따라 답변 정확도가 85.31%로 향상 (QCMR→A)
- = 환각 현상 완화 (60.7% 환각 에러 해결)
- 두 단계 방법이 일 단계 방법보다 더 나은 성능, Multimodal-CoT 프레임워크에서 두 단계 방법을 선택
4. Multimodal-CoT
- Multimodal-CoT를 제안
- motivation: 답변 추론이 다중 모드 정보를 기반으로 한 더 잘 생성된 근거를 활용할 수 있다는 예측
4.1 Framework Overview
- two operation stage 구성
- (i) rationale generation, (ii) answer inference
- 두 단계는 동일한 모델 구조를 공유하지만 입력 X와 출력 Y는 다릅
- rationale generation stage
- (수식 대략 편하게 씀 주의..)
- 모델에 X = {X1언어, X비전}을 입력
- X1언어: 첫 번째 단계의 언어 입력 / X비전은 비전 입력(이미지)
- X는 질문, 맥락 및 여러 선택 문항의 옵션을 연결한 형태로 구성 가능
- 목표: 근거 생성 모델 $R = F (X)$을 학습하는 것, R는 근거
- answer inference stage
- 기존 X1언어에 근거 R을 추가 → 두 번째 언어 입력 X2언어 구성
- 업데이트된 입력 $X' = {X_2^{\text{language}}, X_{\text{vision}}}$
- 답변 추론 모델에 공급하여 최종 답변 $A = F (X')$ 추론
- 기존 X1언어에 근거 R을 추가 → 두 번째 언어 입력 X2언어 구성
- 두 단계 모두, 동일한 아키텍처를 가진 두 모델을 독립적으로 학습
- 주석이 달린 요소들(예: X → R, XR → A)을 훈련 세트에서 받아 감독 학습을 수행
- 추론 중에는 X가 주어졌을 때, 테스트 세트를 위한 근거: 첫 번째 단계에서 학습된 모델을 사용하여 생성, 두 번째 단계에서 답변 추론에 사용
4.2 Model Architecture
- 길이 N의 목표 텍스트 Y (근거 또는 그림 4의 답변) 생성을 위한 확률을 다음과 같이 계산
- $p_{\theta}(Y_i \mid X_{\text{language}}, X_{\text{vision}}, Y_{<i})$
- Transformer 기반 네트워크(Vaswani et al., 2017)를 사용하여 구현
- 네트워크에는 세 가지 주요 절차: 인코딩, 상호작용 및 디코딩
- 언어 텍스트를 Transformer 인코더에 공급하여 텍스트 표현 얻고
- 비전 표현과 상호 작용 및 융합한 후 Transformer 디코더에 전달
- 인코딩
- 모델 F(X): 언어 및 비전 입력 받아 텍스트 표현 H_language 및 이미지 특징 H_vision을 얻음
- LanguageEncoder: Transformer 모델로 구현, 트랜스포머 인코더의 마지막 층에서 은닉상태 언어 표현 사용
- VisionExtractor:
- 입력 이미지를 비전 특징 벡터화하는데 사용, ViT와 같이 고정된 비전 추출 모델에서 패치 수준의 특징 사용
- 학습 가능한 프로젝트 행렬 W_h 를 적용
- 이미지 없는 경우, “빈 특징” 으로 제로 벡터 사용
- 상호작용 Interaction
- 단일-헤드 주의 메커니즘(Single-head Attention)
- query (Q), key (K) and value (V): H_language, H_vision, H_vision
- 텍스트와 이미지 사이의 상관관계를 찾기 위해 주의(attention) 메커니즘이 사용
- 텍스트 토큰(단어 단위)과 이미지 패치(작게 나뉜 이미지 조각) 간의 연결을 계산, 텍스트의 특정 부분이 이미지의 어떤 부분과 관련이 있는지 파악
- 게이트 융합 메커니즘(Gated Fusion Mechanism)
- 텍스트와 이미지 특징을 결합
- 텍스트와 이미지가 모두 중요할 경우, 두 특징이 균형 있게 융합되며, 이미지가 더 중요하다면 이미지 특징에 더 많은 가중치
- 단일-헤드 주의 메커니즘(Single-head Attention)
- 디코딩
- 융합된 출력 H_fuse: 변환기 디코더에 입력되어 목표 Y 예측
5. Experiments
5.1 Dataset
- ScienceQA, A-OKVQA 벤치마크 데이터셋 사용하여 평가
- 추론 체인을 포함한 최신 다중 모달 추론 벤치마크
5.2 Implementation
- 실험 설정
- Base(200M) 및 Large(700M) 설정에서 T5 인코더-디코더 아키텍처 (Raffel et al., 2020)를 채택
- FLAN-Alpaca를 사용하여 모델 가중치를 초기화
- Multimodal-CoT가 UnifiedQA (Khashabi et al., 2020) 및 FLAN-T5 (Chung et al., 2022)와 같은 다른 백본 언어 모델과도 일반적으로 효과적임을 보여줄 것
- 시각적 특징: 고정된 ViT-large 인코더 (Dosovitskiy et al., 2021b)를 통해 획득
- 베이스라인 모델
- 세 가지 범주
- 비주얼 질문 답변 (VQA) 모델:
- 질문, 컨텍스트 및 선택지를 텍스트 입력, 이미지는 시각적 입력
- 선택 후보에 대한 점수 분포를 예측하기 위해 선형 분류기를 사용
- 언어 모델 (LM):
- 텍스트-텍스트 UnifiedQA 모델: 이미지 캡셔닝 모델에서 추출된 캡션으로 변환, 텍스트 생성 문제로 취급
- Few-shot 학습 LLM: 추론은 몇 가지 샷 프롬프트를 기반, 테스트 인스턴스 이전에 훈련 집합에서 두 개의 인컨텍스트 샘플이 연결
- Fine-tuned large vision-language model
5.3 Main Results
- Table4: ScienceQA 벤치마크에서의 주요 결과
- Mutimodal-CoTLarge가 이전 발표된 최고의 모델보다 상당한 성능 향상을 달성했음을 발견(86.54%→90.45%)
- Table5: A-OKVQA 벤치마크에서 얻은 결과, 더욱 효과적
- 주목할만한 점
- Chameleon, LLaMA-Adapter, LLaVA, InstructBLIP과 같은 연구: 우리의 연구 이후 몇 개월 뒤에 발표된 동시대 작업이라는 것
- 우리의 방법: 이러한 멀티모달 모델들(예: InstructBLIP)과 직교적(orthogonal) 관계
- 직교적 관계: 각 모델이 서로 방해되지 않고 독립적으로 기능하며, 동시에 조합하여 사용 가능
- Chameleon, LLaMA-Adapter, LLaVA, InstructBLIP과 같은 연구: 우리의 연구 이후 몇 개월 뒤에 발표된 동시대 작업이라는 것
- Table 6: ablation study
- 시각적 특징(vision features)의 통합과 2단계 프레임워크(two-stage framework) 설계 효과 모두 입증
- Multimodal-CoT는 환각 문제를 완화
- 수렴 속도 개선
6. Analysis
- Multimodal-CoT가 수렴 속도를 향상
- 인간 주석이 없는 합리성의 시나리오에 적응할 수 있는 가능성 입증
- 다양한 백본 모델 및 비전 기능과 함께 Multimodal-CoT의 일반적인 효율성을 조사
- 한계점을 탐색하고 향후 연구에 영감을 주기 위해 오류 분석을 수행
6.1 Multimodality Boosts Convergence
- Figure5: No-CoT 베이스라인과 Multimodal-CoT 변형의 검증 정확도 곡선
- One-stage: 최상의 성능을 보인 QCM→A 입력-출력 형식을 기반
- Two-stage: 본 연구의 두 단계 프레임워크
- 두 단계 방법이 CoT 없이 답변을 직접 생성하는 일단계 베이스라인보다 초반에 상대적으로 높은 정확도를 달성
- 그러나, 비전 기능이 없으면 두 단계 베이스라인은 낮은 품질의 합리성으로 인해 훈련이 진행됨에 따라 더 나은 결과 X
6.2 When Multimodal-CoT Meets Large Models
- Multimodal-CoT 모델이 인간 주석 데이터에 의존하지 않고, 대형 모델을 통해 생성된 rationales 을 사용할 수 있는지 확인하려는 것
- 기존 방식 (Multimodal-CoT w/ Annotation): 벤치마크 데이터셋(ScienceQA)의 인간 주석된 rationales을 사용하여 모델을 훈련
- 대체 방식 (Multimodal-CoT w/ Generation):
- 인간 주석 대신 InstructBLIP와 ChatGPT를 활용하여 rationales을 생성
- 생성된 두 가지 rationales을 결합해 모델을 훈련
- Table7: 생성된 rationales 사용하면 훈련에 대한 인간 주석 rationales 사용과 유사한 성능, 베이스라인 모델에 직접 질문하는 것보다 우수
6.3 Effectiveness Across Backbones
- 다른 백본 모델에 대한 일반성 테스트: 기본 LMs를 다른 유형의 변형으로 변경
- 전반적으로 다 Prior Best 보다 성능 향상
6.4 Using Different Vision Features
- 다양한 비전 특징은 모델 성능에 영향
- 세 가지 널리 사용되는 유형
- ViT, CLIP 및 DETR: 패치와 같은 특징
- ResNet 특징의 경우: ResNet-50의 풀링된 특징을 텍스트 시퀀스와 같은 길이로 반복하여 패치와 같은 특징을 흉내
- ViT가 상대적으로 더 나은 성능을 달성
6.5 Alignment Strategies for Multimodal Interaction
- 멀티모달(CoT) 모델에서 서로 다른 정렬 방식(alignment strategies)이 멀티모달-Chain of Thought(Multimodal-CoT) 모델의 성능과 행동에 어떻게 영향
- 정렬 전략: 텍스트와 이미지 정보가 어떻게 결합되고 상호작용하는지를 조정하는 방식
- 새로운 정렬 전략: BLIP 모델(Li et al., 2022b)
- 이미지 기반 텍스트 인코더(image-grounded text encoder) 사용
- Transformer 블록의 Self-Attention Layer와 Feed-Forward Network사이에 추가적인 Cross-Attention 층을 삽입
- Table 10: BLIP의 이미지 기반 텍스트 인코더를 사용하는 정렬 전략이 텍스트와 이미지를 단순히 결합하여 직접 답변을 생성하는 방식(Direct Answering)보다 성능 향상
- Image-grounded text encoder (Blip)
- Unimodal Encoder (본 논문)
6.6 Generalization to Other Multimodal Reasoning Benchmarks
- 다중 모드 추론 벤치마크인 MMMU(Yue et al., 2024)를 활용
- 추가 훈련 없이 MMMU에서 Multimodal-CoT에 대한 평가를 수행
- Multimodal-CoT는 MMMU에 효과적으로 일반화하여 약 8B 크기의 다양한 더 큰 모델보다 더 나은 성능
6.7 Error Analysis
- 무작위 선택된 예제를 수동으로 분석
- 잘못된 답변을 산출한 50개의 샘플을 조사하고 그에 따라 분류
- 상식적 실수
- 오류의 가장 일반적인 유형
- 오류의 80%를 차지
- 모델이 지도 해석, 이미지 내 객체 수 세기, 알파벳 활용 등 상식적 지식이 필요한 질문에 직면했을 때 발생
- 논리적 실수
- 오류의 14%를 차지
- 추론 과정에서 모순
- CoT가 비어 있거나 옳은 경우에도 잘못된 답변이 제공되는 경우도 관찰
- 오류의 6%
- CoT는 최종 답변에 반드시 영향을 미치지 않을 수 있음
- 향후 연구
- 더 많은 정보성 있는 시각적 특징을 통합, 언어와 비전 간의 상호작용을 강화하여 enable comprehension of maps and numerical counting
- 상식적 지식을 통합
- 관련 CoT만 사용하여 답변을 추론하고 무관한 것은 무시하는 필터링 메커니즘을 구현
7. Conclusion
- Multimodal-CoT를 제안: 언어와 비전 모드를 두 단계 프레임워크에 통합
- 이유 생성과 정답 추론을 분리
- 정답 추론이 다중 모드 정보에서 더 잘 생성된 이유를 활용
- 성능
- ScienceQA 벤치마크에서 최첨단 성능을 달성
- 환각 현상을 완화하고 수렴 속도를 향상
- 향후 연구
- CoT 추론을 개선하기 위해 더 효과적인 비전 특징을 활용하고, 상식 지식을 주입하며, 필터링 메커니즘을 적용할 가능성을 식별