TL;DR

이 연구를 시작하게 된 배경과 동기는 무엇입니까?

대규모 언어 모델의 발전은 인공지능 분야에서 가장 중요한 연구 주제 중 하나로 자리 잡았습니다. 기존 모델들은 대부분 텍스트 처리에만 집중하고 있었으며, 긴 컨텍스트를 효과적으로 처리하거나 다국어 능력을 충분히 확보하지 못하고 있었습니다. 특히 모델의 크기가 커질수록 메모리 사용량과 계산 복잡도가 급격히 증가하는 문제가 있었습니다.

Google DeepMind 연구팀은 이러한 한계를 극복하고, 더 효율적이고 다재다능한 언어 모델을 개발하고자 Gemma 3 프로젝트를 시작했습니다. 그들의 주요 목표는 제한된 컴퓨팅 자원에서도 높은 성능을 발휘할 수 있는 경량 모델을 만드는 것이었습니다. 특히 이미지 이해, 긴 컨텍스트 처리, 다국어 지원 능력을 동시에 강화하는 것에 중점을 두었습니다.

이 연구에서 제시하는 새로운 해결 방법은 무엇입니까?

Gemma 3의 핵심 혁신은 로컬 어텐션과 글로벌 어텐션 레이어의 새로운 아키텍처 설계입니다. 연구팀은 5개의 로컬 어텐션 레이어마다 1개의 글로벌 어텐션 레이어를 배치하는 방식을 도입했습니다. 이 접근법은 메모리 효율성과 모델 성능 사이의 균형을 최적화하는 데 중점을 두었습니다. 로컬 어텐션 레이어는 1024 토큰 범위 내에서 짧은 컨텍스트만 처리하므로 메모리 사용량이 적고, 글로벌 어텐션 레이어는 전체 컨텍스트를 처리하여 장거리 의존성을 포착할 수 있습니다.

또 다른 주요 혁신은 SigLIP 비전 인코더를 통합하여 이미지 이해 능력을 추가한 것입니다. 이 인코더는 이미지를 256개의 토큰으로 변환하여 언어 모델이 처리할 수 있게 합니다. 팬 & 스캔(Pan & Scan) 기법을 도입하여 다양한 종횡비와 해상도의 이미지를 효과적으로 처리할 수 있게 했습니다. 이를 통해 Gemma 3는 텍스트뿐만 아니라 이미지도 이해할 수 있는 다중 모달 모델로 발전했습니다.

제안된 방법은 어떻게 구현되었습니까?

Gemma 3의 구현은 지식 증류(knowledge distillation) 기법을 기반으로 합니다. 이 방법은 큰 모델(교사 모델)의 지식을 작은 모델(학생 모델)로 전달하는 기술입니다. 수학적으로 표현하면, 학생 모델 \(P_S\)는 다음과 같은 목적 함수를 최소화하도록 학습됩니다.

\[ \min_{P_S} \sum_x -P_T(x \vert x_c) \log P_S(x \vert x_c) \]

여기서 \(P_T(x \vert x_c)\)는 교사 모델의 확률 분포이고, \(P_S(x \vert x_c)\)는 학생 모델의 확률 분포입니다. 이를 통해 더 작은 모델도 큰 모델과 비슷한 성능을 달성할 수 있습니다.

모델 학습 과정에서는 다양한 안전 및 윤리적 고려사항도 중요하게 다루었습니다. 사전 학습 데이터를 신중하게 필터링하고, 유해한 콘텐츠 생성을 방지하기 위한 정책을 적용했습니다. 또한 개인정보 보호를 위해 학습 데이터의 기억률을 최소화하는 기술을 개발했습니다. 이러한 접근은 AI 모델의 책임감 있는 개발을 위한 중요한 노력을 보여줍니다.

이 연구의 결과가 가지는 의미는 무엇입니까?

Gemma 3의 연구 결과는 대규모 언어 모델 분야에 중요한 의미를 가집니다. 실험 결과, Gemma3-4B-IT 모델은 Gemma2-27B-IT와 비슷한 성능을 보였고, Gemma3-27B-IT는 다양한 벤치마크에서 Gemini-1.5-Pro와 비교할 만한 성능을 달성했습니다. 특히 메모리 효율성과 성능 사이의 균형을 성공적으로 최적화했다는 점에서 의의가 있습니다.

이 연구는 앞으로의 AI 모델 개발 방향에 중요한 시사점을 제공합니다. 더 큰 모델보다는 효율적이고 다재다능한 경량 모델의 가능성을 보여주었으며, 텍스트뿐만 아니라 이미지도 이해할 수 있는 다중 모달 접근법의 중요성을 강조했습니다. 또한 모델의 안전성과 윤리적 고려사항을 연구 과정에 통합함으로써, 책임감 있는 AI 개발의 중요성를 보여주었습니다.


Gemma 3 기술 보고서

소개

Gemma 3는 Google DeepMind에서 개발한 경량 오픈 모델 제품군의 최신 버전으로, 1억부터 270억 매개변수 규모의 다양한 모델을 제공합니다. 이번 버전에서는 이전 Gemma 모델에 비해 세 가지 주요 기능이 추가되었습니다. 시각적 이해 능력, 더 넓은 언어 지원 범위, 그리고 최소 128K 토큰의 긴 컨텍스트 처리 능력입니다.

Gemma 3의 주요 기술적 혁신 중 하나는 긴 컨텍스트 처리 시 발생하는 KV-캐시 메모리 문제를 해결하기 위한 아키텍처 변경입니다. 긴 컨텍스트를 처리할 때 KV-캐시 메모리는 컨텍스트 길이에 비례하여 증가하는데, 이는 모델의 추론 효율성을 저하시키는 주요 요인이 됩니다. Gemma 3에서는 이 문제를 해결하기 위해 로컬 어텐션과 글로벌 어텐션 레이어의 비율을 조정했습니다. 구체적으로, 로컬 어텐션 레이어의 비율을 늘리고 로컬 어텐션의 범위를 1024 토큰으로 제한함으로써 메모리 사용량을 효율적으로 관리합니다. 이러한 설계 선택으로 인해 글로벌 어텐션 레이어만 전체 긴 컨텍스트에 주의를 기울이고, 로컬 레이어는 더 짧은 범위의 의존성에 집중할 수 있게 되었습니다.

아키텍처적으로 Gemma 3는 5개의 로컬 어텐션 레이어마다 1개의 글로벌 어텐션 레이어를 배치하는 구조를 채택했습니다. 이는 메모리 효율성과 모델 성능 사이의 균형을 맞추기 위한 설계 결정입니다. 로컬 어텐션 레이어는 짧은 범위의 컨텍스트(1024 토큰)만 처리하므로 메모리 사용량이 적지만, 글로벌 어텐션 레이어는 전체 컨텍스트를 처리하여 장거리 의존성을 포착할 수 있습니다.

Gemma 3 모델은 지식 증류(knowledge distillation) 기법을 통해 학습되었습니다. 지식 증류는 Hinton과 연구진이 제안한 방법으로, 큰 모델(교사 모델)의 지식을 작은 모델(학생 모델)로 전달하는 기술입니다. 이 방법을 통해 작은 모델이 큰 모델의 성능에 근접하도록 학습시킬 수 있습니다. 지식 증류의 핵심 아이디어는 교사 모델의 출력 확률 분포를 학생 모델이 모방하도록 하는 것입니다. 수학적으로 표현하면 다음과 같습니다.

\[ \min_{P_S} \sum_x -P_T(x \vert x_c) \log P_S(x \vert x_c) \]

여기서 \(P_T(x \vert x_c)\)는 컨텍스트 \(x_c\)가 주어졌을 때 다음 토큰 \(x\)에 대한 교사 모델의 확률 분포이고, \(P_S(x \vert x_c)\)는 학생 모델의 확률 분포입니다.

사전 학습 최적화 방식은 Gemma 2와 유사하지만, 아키텍처 설계에 몇 가지 수정이 있습니다. Gemma 3는 Gemini 2.0과 동일한 토크나이저를 사용하며, 다국어 기능을 향상시키고 이미지 이해 능력을 도입하기 위해 데이터 혼합 방식을 재검토했습니다.

사후 학습(post-training) 단계에서는 수학, 추론, 대화 능력을 향상시키는 데 중점을 두었으며, Gemma 3의 새로운 기능인 긴 컨텍스트와 이미지 입력을 통합하는 데 주력했습니다. 연구팀은 모든 기능(수학, 코딩, 대화, 지시 따르기, 다국어)에서 성능 향상을 가져오는 새로운 사후 학습 접근법을 개발했습니다. 그 결과, Gemma3-4B-IT 모델은 Gemma2-27B-IT와 비슷한 성능을 보이며, Gemma3-27B-IT는 다양한 벤치마크에서 Gemini-1.5-Pro와 비교할 만한 성능을 달성했습니다.

그림 1: Gemma 3 27B IT 모델과의 시각적 상호작용 예시

위 그림은 Gemma 3 27B IT 모델의 시각적 상호작용 능력을 보여주는 예시입니다. 이 이미지는 레스토랑 영수증으로, 주문한 음식 항목과 총 비용에 대한 상세한 내역을 제공합니다. 영수증에는 비너슈니첼(Wienerschnitzel), 취리히 게슈네첼테스(Zurcher Geschnetzeltes) 등의 음식 항목과 각각의 가격, 그리고 스위스 프랑(CHF)과 유로(EUR)로 표시된 최종 비용(CHF 88.40 또는 EUR 93.05)이 포함되어 있습니다. 이 예시는 Gemma 3 모델이 이미지 내의 텍스트와 구조를 인식하고 이해할 수 있는 능력을 보여줍니다.

Gemma 3의 시각적 이해 능력은 SigLIP 비전 인코더의 맞춤형 버전을 통해 구현됩니다. 이 인코더는 Zhai 등이 개발한 것으로, 이미지를 SigLIP에 의해 인코딩된 소프트 토큰 시퀀스로 처리합니다. 이미지 처리의 추론 비용을 줄이기 위해 비전 임베딩을 256 벡터의 고정 크기로 압축합니다. 또한 인코더는 고정 해상도에서 작동하며, Liu 등이 개발한 LLaVA에서 영감을 받아 Pan and Scan(P&S) 방법을 통해 유연한 해상도를 지원합니다.

Gemma 3 모델은 다양한 정량적, 정성적 벤치마크에서 평가되었으며, 그 결과 이전 버전보다 크게 향상된 성능을 보여주었습니다. 특히 수학, 코딩, 대화, 지시 따르기, 다국어 능력 등 모든 영역에서 개선이 이루어졌습니다. 이러한 성능 향상은 아키텍처 개선, 지식 증류 학습, 그리고 새로운 사후 학습 방법의 조합에 기인합니다.

Gemma 3의 아키텍처는 GQA(Grouped-Query Attention)와 같은 최신 트랜스포머 아키텍처 수정 사항을 활용합니다. GQA는 다중 쿼리 어텐션(MQA)과 다중 헤드 어텐션(MHA) 사이의 중간 지점으로, 쿼리 헤드를 여러 그룹으로 나누고 각 그룹이 단일 키-값 헤드를 공유하는 방식입니다. 이를 통해 MQA의 메모리 대역폭 감소와 MHA의 높은 품질 사이의 균형을 맞출 수 있습니다.

결론적으로, Gemma 3는 경량 오픈 모델 제품군에 다중 모달 기능, 긴 컨텍스트 처리 능력, 그리고 향상된 다국어 지원을 추가한 중요한 발전을 보여줍니다. 이러한 개선은 아키텍처 혁신, 효율적인 학습 방법, 그리고 사후 학습 최적화를 통해 이루어졌으며, 그 결과 더 작은 모델이 더 큰 모델과 비슷한 성능을 달성할 수 있게 되었습니다. Google DeepMind는 이러한 모델들을 커뮤니티에 공개하여 AI 연구와 응용 분야의 발전에 기여하고 있습니다.

모델 아키텍처

Gemma 3 모델은 이전 버전과 유사한 디코더 전용 트랜스포머 아키텍처를 따르고 있습니다. 이 모델은 Vaswani와 연구진이 제안한 기본적인 트랜스포머 구조를 기반으로 하며, 이전 Gemma 버전들과 유사한 아키텍처 요소들을 대부분 유지하고 있습니다. Gemma 3는 Ainslie와 연구진이 제안한 그룹 쿼리 어텐션(Grouped-Query Attention, GQA)을 사용하며, Zhang과 Sennrich가 개발한 RMSNorm을 활용한 사전 정규화(pre-norm)와 사후 정규화(post-norm)를 적용합니다. Dehghani와 연구진, Wortsman과 연구진, 그리고 Chameleon Team의 연구에서 영감을 받아, Gemma 3는 이전 Gemma 2에서 사용하던 소프트 캐핑(soft-capping) 대신 QK-norm을 도입했습니다. 이 섹션에서는 이전 버전과의 주요 차이점에 초점을 맞추어 설명하겠습니다.

로컬/글로벌 레이어의 5:1 인터리빙

Gemma 3는 Beltagy와 연구진이 제안한 로컬 슬라이딩 윈도우 셀프 어텐션(local sliding window self-attention)과 Luong과 연구진이 개발한 글로벌 셀프 어텐션(global self-attention)을 번갈아 사용합니다. 구체적으로, 모델의 첫 번째 레이어부터 시작하여 5개의 로컬 레이어마다 1개의 글로벌 레이어를 배치하는 패턴을 따릅니다. 이러한 구조는 로컬 어텐션이 가까운 토큰들 간의 관계에 집중하고, 글로벌 어텐션이 전체 시퀀스에 걸친 장거리 의존성을 포착할 수 있게 해줍니다.

로컬 슬라이딩 윈도우 어텐션은 각 토큰이 자신을 중심으로 한 고정된 크기의 윈도우 내의 토큰들에만 주의를 기울이는 메커니즘입니다. 이는 계산 복잡도를 \(O(n \times w)\)로 줄여주는데, 여기서 \(n\)은 시퀀스 길이이고 \(w\)는 윈도우 크기입니다. 반면, 글로벌 어텐션은 각 토큰이 전체 시퀀스의 모든 토큰에 주의를 기울이므로 \(O(n^2)\)의 계산 복잡도를 가집니다. 이 두 가지 어텐션 메커니즘을 조합함으로써, Gemma 3는 계산 효율성과 장거리 의존성 포착 능력 사이의 균형을 맞추고 있습니다.

모델 매개변수

아래 표는 Gemma 3 모델의 매개변수 수를 보여줍니다.

모델 비전 인코더 임베딩 매개변수 비임베딩 매개변수
1B 0 302M 698M
4B 417M 675M 3,209M
12B 417M 1,012M 10,759M
27B 417M 1,416M 25,600M

Gemma 3의 어휘 크기는 256k 항목을 포함하고 있습니다. 이 큰 어휘 크기는 다양한 언어와 도메인을 효과적으로 처리할 수 있게 해줍니다. 임베딩 매개변수는 어휘 크기와 모델의 은닉 차원에 비례하며, 비임베딩 매개변수는 주로 어텐션 레이어와 피드포워드 네트워크에 분포되어 있습니다.

긴 컨텍스트 처리

Gemma 3 모델은 1B 모델을 제외한 모든 모델이 128K 토큰의 컨텍스트 길이를 지원합니다. 1B 모델은 32K 토큰의 컨텍스트 길이를 지원합니다. 긴 컨텍스트를 효과적으로 처리하기 위해, 글로벌 셀프 어텐션 레이어의 RoPE(Rotary Position Embedding) 기본 주파수를 10k에서 1M으로 증가시켰으며, 로컬 레이어의 주파수는 10k로 유지했습니다. 이는 글로벌 어텐션 레이어가 더 넓은 범위의 위치 정보를 인코딩할 수 있게 해줍니다.

RoPE는 상대적 위치 정보를 인코딩하는 방법으로, 쿼리와 키 벡터에 회전 변환을 적용합니다. 기본 주파수를 증가시키면 더 긴 시퀀스에서도 위치 정보가 잘 보존됩니다. Gemma 3는 Chen과 연구진이 제안한 위치 보간(positional interpolation)과 유사한 과정을 따라 글로벌 셀프 어텐션 레이어의 범위를 확장했습니다.

위치 보간 방법은 원래 컨텍스트 윈도우 크기를 넘어서는 위치 인덱스를 외삽(extrapolation)하는 대신, 입력 위치 인덱스를 원래 컨텍스트 윈도우 크기에 맞게 선형적으로 축소합니다. 이는 위치 인코딩을 외삽할 때 발생할 수 있는 극단적으로 높은 어텐션 점수와 같은 문제를 방지합니다. 수학적으로, 위치 보간의 안정성은 다음과 같이 표현될 수 있습니다.

\[ \vert a(s) - a_\text{linear}(s) \vert \leq d \left(\max_j \vert h_j \vert \right) \frac{(s-s_1)(s_2-s)}{8\ln c} \]

여기서 \(a(s)\)는 보간된 어텐션 점수이고, \(a_\text{linear}(s)\)는 선형 보간된 어텐션 점수입니다. 이 상한은 외삽된 어텐션 점수보다 약 600배 작아, 훨씬 더 안정적인 결과를 제공합니다.

비전 모달리티

비전 인코더

Gemma 3는 Zhai와 연구진이 개발한 SigLIP 인코더의 400M 변형을 사용합니다. 이는 Dosovitskiy와 연구진이 제안한 비전 트랜스포머(Vision Transformer)를 기반으로 하며, Radford와 연구진이 개발한 CLIP 손실 함수의 변형을 사용하여 학습되었습니다. Gemma 비전 인코더는 896 x 896 크기로 리사이즈된 정사각형 이미지를 입력으로 받으며, 시각적 어시스턴트 태스크의 데이터로 파인튜닝되었습니다. 단순화를 위해, 4B, 12B, 27B 모델 전체에서 동일한 비전 인코더를 공유하며, 학습 중에는 이를 고정(frozen)된 상태로 유지합니다.

비전 트랜스포머(ViT)는 이미지를 고정 크기의 패치 시퀀스로 처리하는 간단하면서도 확장 가능한 전략을 사용합니다. 입력 이미지 \(\mathbf{x} \in \mathbb{R}^{H \times W \times C}\)는 평탄화된 2D 패치 시퀀스 \(\mathbf{x}_p \in \mathbb{R}^{N \times (P^2 \cdot C)}\)로 재구성됩니다. 여기서 \((H, W)\)는 이미지 해상도, \(C\)는 채널 수, \((P, P)\)는 패치 해상도, \(N = HW/P^2\)는 패치 수입니다. 이 패치 임베딩은 학습 가능한 선형 레이어를 통해 일정한 잠재 벡터 크기 \(D\)로 선형 투영됩니다.

팬 & 스캔 (P&S)

Gemma 비전 인코더는 896 × 896의 고정 해상도에서 작동합니다. 이로 인해 비정사각형 종횡비와 고해상도 이미지를 처리할 때 아티팩트가 발생할 수 있으며, 읽을 수 없는 텍스트나 작은 객체가 사라지는 문제가 생길 수 있습니다. Gemma 3는 이 문제를 해결하기 위해 추론 중에 적응형 윈도잉 알고리즘을 사용합니다.

이 알고리즘은 이미지를 동일한 크기의 겹치지 않는 크롭으로 분할하여 전체 이미지를 커버하고, 이를 896×896 픽셀로 리사이즈하여 인코더에 전달합니다. 이 윈도잉은 필요한 경우에만 적용되며, 최대 크롭 수를 제어할 수 있습니다. 이는 추론 시에만 적용되는 최적화이며, 더 빠른 추론을 위해 비활성화할 수 있습니다.

팬 & 스캔 방법은 다양한 종횡비와 해상도의 이미지를 효과적으로 처리할 수 있게 해주며, 특히 텍스트가 포함된 이미지나 세부 정보가 중요한 고해상도 이미지에서 유용합니다.

사전 학습

Gemma 3는 지식 증류(knowledge distillation)를 통한 사전 학습에 있어 Gemma 2와 유사한 방식을 따릅니다.

학습 데이터

Gemma 3 모델은 Gemma 2보다 약간 더 큰 토큰 예산으로 사전 학습되었습니다. 구체적으로, Gemma 3 27B는 14T 토큰, 12B 버전은 12T 토큰, 4B는 4T 토큰, 그리고 1B는 2T 토큰으로 학습되었습니다. 토큰 수의 증가는 사전 학습 중 사용된 이미지와 텍스트의 혼합을 고려한 것입니다. 또한, 언어 커버리지를 향상시키기 위해 다국어 데이터의 양을 증가시켰습니다. 단일 언어 데이터와 병렬 데이터를 모두 추가했으며, Chung과 연구진이 제안한 전략에서 영감을 받아 언어 표현의 불균형을 처리했습니다.

토크나이저

Gemma 3는 Gemini 2.0과 동일한 토크나이저를 사용합니다. 분할된 숫자, 보존된 공백, 그리고 바이트 수준 인코딩을 갖춘 SentencePiece 토크나이저(Kudo와 Richardson, 2018)입니다. 결과적으로 생성된 어휘는 262k 항목을 포함하고 있으며, 이 토크나이저는 비영어권 언어에 대해 더 균형 잡힌 처리를 제공합니다.

아래 표는 데이터, 시퀀스, 그리고 복제본에 의한 샤딩을 포함한 학습 인프라를 보여줍니다.

모델 타입 칩 수 데이터 시퀀스 복제본
1B TPUv5e 512 16 16 2
4B TPUv5e 2048 16 16 8
12B TPUv4 6144 16 16 24
27B TPUv5p 6144 24 8 32

필터링

Gemma 3는 원치 않거나 안전하지 않은 발화의 위험을 줄이고 특정 개인 정보 및 기타 민감한 데이터를 제거하는 필터링 기술을 사용합니다. 사전 학습 데이터 혼합에서 평가 세트를 오염 제거(decontaminate)하고, 민감한 출력의 확산을 최소화하여 암기(recitation)의 위험을 줄입니다. 또한, Sachdeva와 연구진(2024)에서 영감을 받은 품질 재가중치(quality reweighing) 단계를 적용하여 낮은 품질의 데이터 발생을 줄입니다.

증류

Gemma 3는 토큰당 256개의 로짓을 샘플링하며, 이는 교사 모델의 확률에 따라 가중치가 부여됩니다. 학생 모델은 이러한 샘플 내에서 교사 모델의 분포를 교차 엔트로피 손실을 통해 학습합니다. 샘플링되지 않은 로짓에 대해서는 교사 모델의 목표 분포가 0 확률로 설정되고, 재정규화됩니다.

수학적으로 표현하면, 증류 손실은 다음과 같이 정의됩니다.

\[ \min_{P_S} \sum_x -P_T(x \vert x_c) \log P_S(x \vert x_c) \]

여기서 \(P_T(x \vert x_c)\)는 컨텍스트 \(x_c\)가 주어졌을 때 다음 토큰 \(x\)에 대한 교사 모델의 확률 분포이고, \(P_S(x \vert x_c)\)는 학생 모델의 확률 분포입니다.

양자화 인식 학습

원시 체크포인트와 함께, Gemma 3는 다양한 표준 형식으로 양자화된 모델 버전도 제공합니다. 이러한 버전들은 각 모델을 양자화 인식 학습(Quantization Aware Training, QAT)(Jacob과 연구진, 2018)을 사용하여 일반적으로 5,000단계 정도의 소수의 단계 동안 파인튜닝하여 얻어집니다. 비양자화 체크포인트의 확률을 목표로 사용하고, 사전 학습 및 사후 학습 분포를 일치시키기 위해 데이터를 조정합니다.

가장 인기 있는 오픈 소스 양자화 추론 엔진(예: llama.cpp)을 기반으로, Gemma 3는 세 가지 가중치 표현에 중점을 둡니다. 채널별 int4, 블록별 int4, 그리고 전환된 fp8입니다. 아래 표는 32k 토큰 시퀀스에 대해 KV-캐시가 있거나 없는 각 가중치 표현에 대한 원시 및 양자화된 모델이 채우는 메모리를 보여줍니다.

모델 bf16 (GB) Int4 (GB) Int4blocks=32 (GB) SFP8 (GB)
1B 2.0 0.5 0.7 1.0
+KV 2.9 1.4 1.6 1.9
4B 8.0 2.6 2.9 4.4
+KV 12.7 7.3 7.6 9.1
12B 24.0 6.6 7.1 12.4
+KV 38.9 21.5 22.0 27.3
27B 54.0 14.1 15.3 27.4
+KV 72.7 32.8 34.0 46.1

위 표에서 볼 수 있듯이, 양자화는 모델의 메모리 사용량을 크게 줄일 수 있습니다. 예를 들어, 27B 모델의 경우 bf16 형식에서는 54.0GB의 메모리를 사용하지만, Int4 양자화를 적용하면 14.1GB로 줄어듭니다. 이는 약 74%의 메모리 절감을 의미합니다. KV-캐시를 포함하면 메모리 사용량이 더 증가하지만, 양자화를 통해 여전히 상당한 절감 효과를 얻을 수 있습니다.

양자화된 모델은 정확도에서 약간의 손실이 있을 수 있지만, 메모리 사용량과 추론 속도 측면에서 상당한 이점을 제공합니다. 이는 특히 제한된 리소스 환경에서 대규모 언어 모델을 배포할 때 중요한 고려사항입니다.

컴퓨팅 인프라

Gemma 3 모델은 TPUv4, TPUv5e, TPUv5p와 같은 다양한 TPU 아키텍처를 활용하여 학습되었습니다. 위 표에 요약된 바와 같이, 각 모델 구성은 학습 단계 시간을 최소화하기 위해 최적화되었습니다. 비전 인코더의 경우, 각 이미지에 대한 임베딩을 미리 계산하고 이를 직접 사용하여 언어 모델을 학습함으로써 학습 비용을 효율적으로 관리했습니다.

옵티마이저 상태 샤딩을 위해 Ren과 연구진이 제안한 ZeRO-3(Zero Redundancy Optimizer) 구현을 활용했습니다. ZeRO-3는 옵티마이저 상태, 그래디언트, 모델 파라미터를 여러 장치에 분산시켜 메모리 사용량을 크게 줄이는 기술입니다. 이 방식은 특히 대규모 모델 학습에서 메모리 효율성을 높이는 데 중요한 역할을 합니다.

멀티 포드(multi-pod) 학습의 경우, Barham과 연구진이 개발한 Pathways 접근법을 사용하여 데이터 센터 네트워크를 통한 데이터 복제본 축소(data replica reduction)를 수행했습니다. Pathways는 비동기 분산 데이터플로우 시스템으로, 제어 평면이 데이터 평면과 병렬로 실행될 수 있게 하여 복잡한 병렬화 패턴을 단순하게 표현할 수 있습니다. 이 시스템은 중앙 집중식 자원 관리와 갱 스케줄링(gang-scheduling)을 통해 효율적인 분산 컴퓨팅을 지원합니다.

또한 Roberts와 연구진이 개발한 Jax와 Pathways의 ‘단일 컨트롤러(single controller)’ 프로그래밍 패러다임을 활용했습니다. 이 접근법은 Xu와 연구진이 제안한 GSPMD(General and Scalable Parallelization for ML Computation Graphs) 파티셔너와 XLA(2019)의 MegaScale 컴파일러와 함께 사용되었습니다. GSPMD는 유연하고 통합된 병렬화 표현을 사용하여 데이터 병렬성, 레이어 내 모델 병렬성, 공간 분할 등 다양한 병렬화 패턴을 표현할 수 있게 해줍니다. 이러한 기술들의 조합은 Gemma 3 모델의 효율적인 학습과 추론을 가능하게 했습니다.

컨텍스트 포맷팅

Gemma IT 모델의 입력 및 출력 형식은 아래에 자세히 설명되어 있습니다. 사용자와 모델 간의 대화는 특정 토큰으로 구분됩니다.

  • 사용자 턴: <start_of_turn>user
  • 모델 턴: <start_of_turn>model
  • 턴 종료: <end_of_turn>

대화 예시:

사용자: Who are you?
모델: My name is Gemma!
사용자: What is 2+2?
모델: 2+2=4.

모델 입력은 다음과 같이 포맷됩니다.

[BOS] <start_of_turn>user Who are you? <end_of_turn> <start_of_turn>model My name is Gemma! <end_of_turn> <start_of_turn>user What is 2+2? <end_of_turn> <start_of_turn>model

모델 출력:

2+2=4. <end_of_turn>

여기서 중요한 점은 토크나이저에서 add_bos=True 옵션을 사용하거나 토크나이징 후 명시적으로 [BOS] 토큰을 추가해야 한다는 것입니다. “[BOS]” 텍스트 자체를 토크나이징하지 않도록 주의해야 합니다.

이러한 포맷팅 방식은 모델이 대화의 맥락을 이해하고 적절한 응답을 생성하는 데 중요한 역할을 합니다. 특히 대화형 AI 시스템에서는 사용자와 모델의 턴을 명확히 구분하는 것이 중요하며, 이러한 특수 토큰들이 그 역할을 수행합니다.

Chatbot Arena 평가 결과

Chatbot Arena는 인간 평가자들이 두 모델의 응답을 블라인드 방식으로 비교하여 평가하는 플랫폼입니다. 각 모델은 Elo 레이팅 시스템을 기반으로 점수를 부여받습니다.

Gemma-3-27B-IT 모델은 1338점의 Elo 점수를 기록하여 상위 모델들과 경쟁력 있는 성능을 보여주었습니다. 이는 Grok-3-Preview-02-24(1412점), GPT-4.5-Preview(1411점), Gemini-2.0-Flash-Thinking-Exp-01-21(1384점) 등에 이어 9위에 해당하는 성적입니다. 특히 주목할 만한 점은 Gemma-3-27B-IT가 DeepSeek-R1(1363점), o1-2024-12-17(1352점)과 같은 유명한 모델들과 비슷한 성능을 보여주었다는 것입니다.

또한 Gemma-3-27B-IT는 오픈 소스 모델 중에서도 상당히 높은 순위를 차지했으며, 특히 DeepSeek-V3, Meta-Llama-3.1-405B-Instruct-bf16, Llama-3.3-70B-Instruct, Qwen2.5-72B-Instruct 등 더 큰 규모의 모델들과 경쟁할 수 있는 성능을 보여주었습니다. 이는 Gemma 3 모델의 효율적인 아키텍처 설계와 학습 방법론의 효과를 입증하는 결과입니다.

이 결과는 2025년 3월 8일에 받은 예비 결과이며, 모델의 최종 성능은 추가적인 평가와 개선을 통해 변경될 수 있습니다. 이러한 평가 결과는 Gemma 3 모델이 대화형 AI 시스템으로서 높은 품질의 응답을 생성할 수 있음을 보여주며, 특히 오픈 소스 모델로서의 가치를 강조합니다.

Gemma 3 모델의 컴퓨팅 인프라와 평가 결과는 효율적인 학습 방법과 아키텍처 설계가 모델 성능에 미치는 영향을 잘 보여줍니다. 특히 ZeRO-3, Pathways, GSPMD와 같은 최신 분산 학습 기술을 활용함으로써, 대규모 모델을 효율적으로 학습시키고 높은 성능을 달성할 수 있었습니다. 이러한 기술적 접근은 향후 더 큰 규모의 모델 개발과 효율적인 학습 방법론 연구에 중요한 참고 자료가 될 것입니다.

지시 튜닝

사전 학습된 모델은 개선된 사후 학습 접근법을 통해 지시 튜닝된 모델로 변환됩니다. 이 접근법은 이전 방식에 비해 향상된 방법을 사용하며, 자세한 내용은 아래에서 확인할 수 있습니다.

기술적 접근법

Gemma 3의 사후 학습 접근법은 대형 지시 튜닝(IT) 교사 모델로부터의 개선된 지식 증류 기법에 기반합니다. Hinton과 연구진이 제안한 지식 증류는 큰 모델(교사 모델)의 지식을 작은 모델(학생 모델)로 전달하는 기술입니다. 이 방법의 핵심은 교사 모델이 생성하는 소프트 타겟(확률 분포)을 학생 모델이 모방하도록 학습시키는 것입니다. 수학적으로 표현하면 다음과 같습니다.

\[ q_i = \frac{\exp(z_i / T)}{\sum_j \exp(z_j / T)} \]

여기서 \(q_i\)는 소프트 타겟 확률, \(z_i\)는 로짓, \(T\)는 소프트 타겟의 ‘부드러움’을 제어하는 온도 매개변수입니다.

Gemma 3는 Anil과 연구진이 개발한 코디스틸레이션(codistillation) 기법의 개념도 활용합니다. 코디스틸레이션은 모델의 여러 복사본을 병렬로 학습시키고, 각 모델의 손실 함수에 다른 모델들의 평균 예측과 일치하도록 하는 항을 추가하는 방식입니다. 이 방법은 그래디언트나 모델 매개변수 대신 예측을 공유함으로써 훨씬 더 통신 효율적인 분산 학습을 가능하게 합니다.

또한 Gemma 3는 Sessa와 연구진의 BOND, Ramé와 연구진의 WARM, 그리고 Ramé와 연구진의 WARP에 기반한 개선된 강화학습(RL) 미세 조정 단계를 포함합니다. 이러한 기법들은 모델의 성능을 향상시키기 위한 다양한 강화학습 목표를 설정하는 데 사용됩니다.

강화학습 목표

Gemma 3는 유용성, 수학, 코딩, 추론, 지시 따르기, 다국어 능력을 향상시키면서 모델의 유해성을 최소화하기 위해 다양한 보상 함수를 사용합니다. 이러한 보상 함수에는 다음과 같은 요소들이 포함됩니다.

  1. 인간 피드백 데이터로 학습된 가중치 평균 보상 모델(WARM)
  2. Gehring과 연구진이 개발한 코드 실행 피드백
  3. 수학 문제 해결을 위한 정답 기반 보상(Lambert와 연구진, DeepSeek-AI)

코드 실행 피드백의 경우, Gehring과 연구진이 제안한 RLEF(Reinforcement Learning with Execution Feedback) 방법을 활용합니다. 이 방법은 코드 합성을 마르코프 결정 과정(MDP)으로 모델링하고, 언어 모델이 여러 단계에 걸쳐 코드 솔루션을 생성하는 정책 역할을 합니다. 보상 함수 \(R(s_t, a_t)\)는 다음과 같이 정의됩니다.

\[ R(s_t, a_t) = r(s_t, a_t) - \beta \log \frac{\pi(a_t \vert c_t)}{\rho(a_t \vert c_t)} \]

여기서 \(r(s_t, a_t)\)는 다음과 같이 정의됩니다.

\[ r(s_t, a_t) = \begin{cases} 1, & \text{에피소드 종료 및 모든 테스트 통과}
-1, & \text{에피소드 종료 및 테스트 실패}
-0.2, & \text{유효한 코드가 아닌 경우} \end{cases} \]

그리고 \(\beta\)는 작업 보상과 KL 최대화 사이의 균형을 조절하는 상수입니다.

수학 문제 해결을 위한 보상 함수는 Lambert와 연구진DeepSeek-AI의 연구에 기반하여, 모델이 생성한 답안과 정답을 비교하여 보상을 제공합니다. 이는 모델이 수학적 추론 능력을 향상시키는 데 중요한 역할을 합니다.

데이터 필터링

Gemma 3는 모델 성능을 최대화하기 위해 사후 학습에 사용되는 데이터를 신중하게 최적화합니다. 다음과 같은 필터링 기준을 적용합니다.

  1. 개인 정보가 포함된 예시 제거
  2. 안전하지 않거나 유해한 모델 출력 제거
  3. 잘못된 자기 식별 데이터 제거
  4. 중복된 예시 제거

또한, 더 나은 인용 표시, 불확실성 표현, 환각(hallucination) 최소화를 위한 거부 응답을 장려하는 데이터 하위 집합을 포함합니다. 이러한 접근법은 사실성 지표에서의 성능을 향상시키면서도 다른 지표에서의 모델 성능을 저하시키지 않습니다.

Tulu 3와 같은 최신 연구에서 영감을 받아, Gemma 3는 검증 가능한 보상을 통한 강화학습(RLVR)을 활용하여 수학, 코딩, 정확한 지시 따르기와 같은 특정 기술을 직접 최적화합니다. 이 접근법은 모델의 핵심 능력을 향상시키는 데 중점을 둡니다.

[BOS] 토큰

사전 학습(PT)과 지시 튜닝(IT) 모델 모두에서 텍스트는 BOS 토큰으로 시작합니다. 이 토큰은 “[BOS]” 텍스트가 [BOS] 토큰으로 매핑되지 않기 때문에 명시적으로 추가해야 합니다. 예를 들어, Flax에는 토크나이징 시 이 토큰을 자동으로 추가하는 add_bos=True 옵션이 있습니다.

PT와 IT 포맷팅

모든 모델은 동일한 토크나이저를 공유하며, 일부 제어 토큰은 IT 포맷팅 전용입니다. 주요 차이점은 PT 모델이 생성 끝에 <eos> 토큰을 출력하는 반면, IT 모델은 생성 끝에 <end_of_turn> 토큰을 출력한다는 것입니다. 따라서 두 모델 유형 중 하나를 미세 조정할 때는 각각의 종료 토큰을 추가해야 합니다.

IT 모델의 입력 및 출력 형식은 다음과 같은 특정 토큰으로 구분됩니다.

  • 사용자 턴: <start_of_turn>user
  • 모델 턴: <start_of_turn>model
  • 턴 종료: <end_of_turn>

예를 들어, 다음과 같은 대화가 있다고 가정해 보겠습니다.

사용자: Who are you?
모델: My name is Gemma!
사용자: What is 2+2?
모델: 2+2=4.

이 대화의 모델 입력은 다음과 같이 포맷됩니다.

[BOS] <start_of_turn>user Who are you? <end_of_turn> <start_of_turn>model My name is Gemma! <end_of_turn> <start_of_turn>user What is 2+2? <end_of_turn> <start_of_turn>model

그리고 모델 출력은 다음과 같습니다.

2+2=4. <end_of_turn>

이러한 포맷팅 방식은 모델이 대화의 맥락을 이해하고 적절한 응답을 생성하는 데 중요한 역할을 합니다. 특히 대화형 AI 시스템에서는 사용자와 모델의 턴을 명확히 구분하는 것이 중요하며, 이러한 특수 토큰들이 그 역할을 수행합니다.

이러한 지시 튜닝 접근법을 통해 Gemma 3 모델은 다양한 작업에서 뛰어난 성능을 보여줍니다. 특히 Gemma3-4B-IT 모델은 Gemma2-27B-IT와 비슷한 성능을 보이며, Gemma3-27B-IT는 다양한 벤치마크에서 Gemini-1.5-Pro와 비교할 만한 성능을 달성했습니다. 이는 개선된 지식 증류, 강화학습 기반 미세 조정, 그리고 신중한 데이터 필터링의 조합을 통해 이루어진 결과입니다.

최종 모델 평가

이 섹션에서는 Gemma 3의 IT(Instruction Tuned) 모델들을 다양한 자동화된 벤치마크와 인간 평가를 통해 여러 도메인에 걸쳐 평가하고, MMLU와 같은 정적 벤치마크에서의 성능도 함께 살펴봅니다.

LMSYS 챗봇 아레나 평가

LMSYS 챗봇 아레나는 Chiang과 연구진이 개발한 평가 플랫폼으로, 인간 평가자들이 두 모델의 응답을 블라인드 방식으로 비교하여 평가합니다. 각 모델은 Elo 레이팅 시스템을 기반으로 점수를 부여받으며, 이는 체스 선수들의 실력을 평가하는 데 사용되는 방식과 유사합니다.

Gemma 3 27B IT 모델은 1338점의 Elo 점수를 기록하여 상위 10개 모델 중 하나로 자리매김했습니다. 이는 DeepSeek-V3(1318점), LLaMA 3 405B(1257점), Qwen2.5-70B(1257점)와 같은 훨씬 더 큰 규모의 비사고형(non-thinking) 오픈 모델들보다 높은 점수입니다. 특히 주목할 만한 점은 Gemma 3의 Elo 점수가 이전 버전인 Gemma 2(1220점)보다 크게 향상되었다는 것입니다.

여기서 중요한 점은 Elo 점수가 시각적 능력을 고려하지 않는다는 것입니다. 앞서 언급된 모델들은 모두 시각적 처리 능력이 없는 반면, Gemma 3는 이미지 처리 능력을 갖추고 있습니다. 이는 Gemma 3가 텍스트 기반 작업에서만 평가되었음에도 불구하고 높은 성능을 보여주었다는 것을 의미합니다.

표준 벤치마크 평가

아래는 Gemma 3의 최종 모델들이 다양한 벤치마크에서 이전 모델 버전 및 Gemini 1.5와 비교하여 어떤 성능을 보이는지 보여줍니다. 이 표에는 다음과 같은 다양한 능력을 평가하는 벤치마크들이 포함되어 있습니다.

  1. MMLU-Pro: 전문적인 지식을 평가하는 벤치마크로, Gemma 3 27B 모델은 67.5점을 기록했습니다. 이는 Gemini 1.5(77.6점)와 Gemini 2.0(79.1점)보다는 낮지만, Gemma 2(60.6점)보다는 상당히 향상된 점수입니다.

  2. LiveCodeBench: 코드 생성 능력을 평가하는 벤치마크로, Gemma 3 27B 모델은 29.7점을 기록했습니다. 이는 Gemini 1.5(34.5점)와 Gemini 2.0(36.0점)보다는 낮지만, Gemma 2(24.6점)보다 향상된 성능을 보여줍니다.

  3. Bird-SQL (dev): SQL 쿼리 생성 능력을 평가하는 벤치마크로, Gemma 3 27B 모델은 54.4점을 기록했습니다. 이는 Gemini 1.5(58.7점)와 Gemini 2.0(59.3점)보다는 낮지만, Gemma 2(47.9점)보다 향상된 점수입니다.

  4. GPQA Diamond: 전문적인 질문 응답 능력을 평가하는 벤치마크로, Gemma 3 27B 모델은 42.4점을 기록했습니다. 이는 Gemini 1.5(60.1점)와 Gemini 2.0(64.7점)보다는 낮지만, Gemma 2(40.9점)보다 약간 향상된 성능을 보여줍니다.

  5. SimpleQA: 간단한 질문 응답 능력을 평가하는 벤치마크로, Gemma 3 27B 모델은 10.0점을 기록했습니다. 이는 Gemini 1.5(29.9점)와 Gemini 2.0(44.3점)보다 크게 낮지만, Gemma 2(6.3점)보다는 향상된 점수입니다.

  6. FACTS Grounding: 사실 기반 응답 능력을 평가하는 벤치마크로, Gemma 3 27B 모델은 74.9점을 기록했습니다. 이는 Gemini 1.5(84.6점)와 Gemini 2.0(82.8점)보다는 낮지만, Gemma 2(75.8점)와 비슷한 수준입니다.

  7. Global MMLU-Lite: 다국어 지식을 평가하는 벤치마크로, Gemma 3 27B 모델은 75.1점을 기록했습니다. 이는 Gemini 1.5(83.4점)와 Gemini 2.0(86.5점)보다는 낮지만, Gemma 2(69.5점)보다 향상된 점수입니다.

  8. MATH: 수학 문제 해결 능력을 평가하는 벤치마크로, Gemma 3 27B 모델은 89.0점을 기록했습니다. 이는 Gemini 1.5(90.9점)와 Gemini 2.0(91.8점)보다는 약간 낮지만, Gemma 2(83.8점)보다 크게 향상된 성능을 보여줍니다.

  9. HiddenMath: 숨겨진 수학적 추론 능력을 평가하는 벤치마크로, Gemma 3 27B 모델은 60.3점을 기록했습니다. 이는 Gemini 1.5(63.5점)와 Gemini 2.0(65.2점)보다는 낮지만, Gemma 2(54.5점)보다 향상된 점수입니다.

  10. MMMU (val): 다중 모달 이해 능력을 평가하는 벤치마크로, Gemma 3 27B 모델은 64.9점을 기록했습니다. 이는 Gemini 1.5(71.7점)와 Gemini 2.0(72.7점)보다는 낮지만, Gemma 2(59.6점)보다 향상된 성능을 보여줍니다.

이러한 결과들을 종합해보면, Gemma 3 모델은 이전 버전인 Gemma 2에 비해 모든 벤치마크에서 일관되게 향상된 성능을 보여주고 있습니다. 특히 MATH 벤치마크에서는 89.0점으로 Gemini 시리즈와 비교해도 크게 뒤처지지 않는 성능을 보여주었습니다. 이는 Gemma 3의 수학적 추론 능력이 크게 향상되었음을 시사합니다.

또한 주목할 만한 점은 Gemma 3의 작은 모델들(1B, 4B, 12B)도 크기에 비해 상당히 좋은 성능을 보여준다는 것입니다. 예를 들어, Gemma 3 12B 모델은 MATH 벤치마크에서 83.8점을 기록했는데, 이는 Gemma 2 27B 모델과 동일한 점수입니다. 이는 Gemma 3에 적용된 지식 증류 기법과 아키텍처 개선이 효과적으로 작동했음을 보여줍니다.

논문의 저자들은 외부 모델과의 직접적인 비교는 하지 않았습니다. 이는 각 모델이 자체적인 평가 설정을 보고하는 경우가 많아 동일한 설정에서 실행하더라도 공정한 비교를 보장할 수 없기 때문입니다. 대신, 저자들은 독자들에게 제3자 정적 리더보드를 참조하여 모델 간 더 공정한 비교를 하도록 권장하고 있습니다.

부록에는 다른 벤치마크에서의 추가 평가 결과가 포함되어 있다고 언급되어 있습니다. 이러한 추가 평가는 Gemma 3 모델의 성능을 더 포괄적으로 이해하는 데 도움이 될 것입니다.

Gemma 3 모델의 평가 결과는 전반적으로 매우 긍정적입니다. 특히 27B 모델은 LMSYS 챗봇 아레나에서 상위 10위 안에 들 정도로 경쟁력 있는 성능을 보여주었으며, 다양한 표준 벤치마크에서도 이전 버전에 비해 크게 향상된 성능을 보여주었습니다. 이는 Gemma 3에 적용된 아키텍처 개선, 지식 증류 학습, 그리고 새로운 사후 학습 방법의 효과를 입증하는 결과입니다.

또한, Gemma 3 모델은 시각적 이해 능력을 갖추고 있다는 점에서 다른 텍스트 전용 모델들과 차별화됩니다. 이러한 다중 모달 능력은 LMSYS 챗봇 아레나와 같은 텍스트 기반 평가에서는 고려되지 않았지만, 실제 응용 환경에서는 중요한 장점이 될 수 있습니다.

결론적으로, Gemma 3 모델은 오픈 소스 모델로서 크기 대비 매우 경쟁력 있는 성능을 보여주고 있으며, 특히 수학, 코딩, 추론 능력에서 강점을 보이고 있습니다. 이는 Google DeepMind가 효율적인 모델 설계와 학습 방법을 통해 더 작은 모델로도 높은 성능을 달성할 수 있음을 보여주는 중요한 사례입니다.

모델 변형 실험

이 섹션에서는 Gemma 3 모델의 아키텍처 변경이 성능에 미치는 영향과 새로운 시각적 능력에 대해 중점적으로 분석합니다.

사전 학습 능력 탐색

그림 2: Gemma 2와 Gemma 3 모델의 다양한 일반 능력에 대한 성능 요약

위 그림은 Gemma 2와 Gemma 3 모델의 다양한 일반 능력에 대한 성능을 비교하는 레이더 차트입니다. 이 차트는 코드, 시각, 다국어, 과학, 추론 등 여러 영역에서 두 모델의 상대적 강점과 약점을 시각화합니다. Gemma 3가 대부분의 영역, 특히 코드, 시각, 추론 부분에서 Gemma 2보다 우수한 성능을 보여주고 있습니다. 이 차트는 다양한 작업과 응용 프로그램에 적합한 모델을 선택하는 데 도움이 되는 간결한 요약을 제공합니다.

그림 3: 로컬:글로벌 비율이 검증 세트의 퍼플렉시티에 미치는 영향

위 그림은 텍스트 전용 모델의 검증 세트에 대한 퍼플렉시티에 로컬:글로벌 비율이 미치는 영향을 보여줍니다. 주요 발견은 7:1의 로컬 대 글로벌 비율을 사용하더라도 영향이 미미하다는 것입니다. 이는 모델이 로컬 정보와 글로벌 정보 간의 균형에 강건하다는 것을 시사하며, 이는 이러한 모델의 설계와 최적화에 중요한 의미를 갖습니다.

그림 4: 슬라이딩 윈도우 크기가 검증 세트의 퍼플렉시티에 미치는 영향

위 그림은 서로 다른 로컬 대 글로벌 레이어 비율(1:1 및 1:3)을 가진 두 개의 2B 모델에 대해 슬라이딩 윈도우 크기가 검증 세트의 퍼플렉시티에 미치는 영향을 보여줍니다. 이 그림의 주요 목적은 슬라이딩 윈도우 크기가 검증 세트에서 모델의 성능에 어떤 영향을 미치는지 이해하는 것입니다. 핵심 기술적 구성 요소는 슬라이딩 윈도우 크기와 텍스트의 다음 토큰을 예측하는 모델의 능력을 측정하는 퍼플렉시티 메트릭입니다. 중요한 발견은 슬라이딩 윈도우 크기가 증가함에 따라 퍼플렉시티가 감소한다는 것으로, 이는 더 큰 슬라이딩 윈도우가 더 나은 모델 성능으로 이어진다는 것을 나타냅니다. 이 결과는 텍스트 기반 언어 모델의 설계 및 최적화에 중요한 의미를 갖습니다.

사전 학습 중에 모델이 일반적인 능력을 포착하는지 확인하기 위해 여러 표준 벤치마크를 프로브로 사용했습니다. 위 레이더 차트에서는 Gemma 2와 Gemma 3의 사전 학습된 모델의 품질을 과학, 코드, 사실성, 다국어, 추론, 시각과 같은 일반적인 능력에 걸쳐 비교합니다. 이러한 플롯에 사용된 다양한 공개 벤치마크에서의 성능 세부 사항은 부록에 요약되어 있습니다. 전반적으로, 시각 능력이 추가되었음에도 불구하고 새 버전이 대부분의 카테고리에서 개선된 것을 볼 수 있습니다. 이 버전에서는 특히 다국어 기능에 중점을 두었으며, 이는 모델의 품질에 직접적인 영향을 미칩니다. 그러나 오염 제거 기술을 사용했음에도 불구하고, Mirzadeh와 연구진이 지적한 바와 같이 이러한 프로브의 오염 위험이 항상 존재하므로 더 확정적인 결론을 내리기 어렵습니다.

로컬:글로벌 어텐션 레이어

그림 5: 32k 크기의 사전 채움 KV 캐시로 추론 중 모델 대 KV 캐시 메모리

위 그림은 다양한 로컬 대 글로벌 비율과 슬라이딩 윈도우 크기(sw)를 가진 2B 모델과 글로벌 전용 모델의 추론 메모리 사용량을 비교합니다. 이 시각화는 모델과 추론 중 키-값(KV) 캐시의 메모리 사용량을 보여줍니다. 주요 발견은 더 큰 슬라이딩 윈도우 크기(1:1 sw=1024 및 1:3 sw=1024)를 가진 로컬 대 글로벌 모델이 글로벌 전용 모델에 비해 메모리 사용량이 크게 낮다는 것으로, 이는 대규모 언어 모델의 잠재적인 성능 및 효율성 향상을 나타냅니다.

성능과 추론 중 메모리 소비에 대한 로컬 및 글로벌 셀프 어텐션 레이어의 변경 영향을 측정했습니다.

로컬:글로벌 비율. 위 그래프에서는 다양한 로컬 대 글로벌 어텐션 레이어 비율을 비교합니다. Gemma 2 모델에서는 1:1이 사용되었고, Gemma 3에서는 5:1이 사용되었습니다. 이 비율을 변경해도 퍼플렉시티에 미치는 영향이 미미한 것으로 관찰됩니다.

슬라이딩 윈도우 크기. 위 그래프에서는 다양한 글로벌:로컬 비율 구성에서 로컬 어텐션 레이어의 슬라이딩 윈도우 크기를 비교합니다. 퍼플렉시티에 영향을 미치지 않고 슬라이딩 윈도우를 크게 줄일 수 있습니다.

그림 6: KV 캐시 메모리 대 컨텍스트 길이

위 그림은 컨텍스트 길이에 따른 KV 캐시의 메모리 사용량을 보여줍니다. 로컬 대 글로벌 어텐션 비율이 5:1이고 슬라이딩 윈도우 크기가 1024인 아키텍처(L:G=5:1, sw=1024)와 LLaMa나 Gemma 1에서 사용된 것과 같은 글로벌 어텐션만 있는 트랜스포머를 비교합니다. 주요 발견은 5:1 로컬 대 글로벌 어텐션 아키텍처의 KV 캐시 메모리 사용량이 컨텍스트 길이가 증가함에 따라 글로벌 전용 어텐션 모델보다 훨씬 느리게 증가한다는 것으로, 이는 장거리 컨텍스트에 대한 상당한 메모리 절약을 나타냅니다. 이는 대규모 언어 모델의 효율성과 확장성에 중요한 의미를 갖습니다.

KV 캐시 메모리에 미치는 영향. 위 그림에서는 32k 토큰의 컨텍스트로 추론 중 모델과 KV 캐시에 사용되는 메모리의 균형을 보여줍니다. “글로벌 전용” 구성은 대부분의 밀집 모델에서 사용되는 표준 구성입니다. “1:1, sw=4096”은 Gemma 2에서 사용됩니다. “글로벌 전용” 구성은 60%의 메모리 오버헤드를 초래하는 반면, “1:3, sw=1024”를 사용하면 이를 15% 미만으로 줄일 수 있습니다. 그림 6에서는 2B 아키텍처(L:G=5:1, sw=1024)와 “글로벌 전용” 2B 모델을 사용하여 컨텍스트 길이에 따른 KV 캐시에 사용되는 메모리를 계산합니다.

긴 컨텍스트 활성화

그림 7: RoPE 리스케일링 전후의 사전 학습된 언어 모델의 긴 컨텍스트 성능

위 그림은 회전 위치 인코딩(RoPE) 리스케일링을 적용하기 전과 후의 사전 학습된 언어 모델의 긴 컨텍스트 성능을 보여줍니다. 이 그림의 주요 목적은 다양한 컨텍스트 길이에 걸친 모델 성능에 대한 RoPE의 영향을 시각화하는 것입니다. 핵심 기술적 구성 요소는 긴 컨텍스트가 있는 모델과 없는 모델(4B, 12B, 27B)의 다양한 사전 학습된 모델과 퍼플렉시티 성능 메트릭입니다. 중요한 발견은 RoPE가 모델의 성능을 크게 향상시키며, 특히 더 긴 컨텍스트 길이에서 그렇다는 것으로, 이는 언어 모델링에서 장거리 의존성을 포착하는 데 있어 RoPE의 중요성을 나타냅니다.

처음부터 128K 시퀀스로 학습하는 대신, 32K 시퀀스로 모델을 사전 학습한 다음 사전 학습 마지막에 4B, 12B, 27B 모델을 128K 토큰으로 확장하면서 RoPE(Chen과 연구진)를 리스케일링합니다. 실제로 스케일링 팩터 8이 잘 작동하는 것을 발견했습니다. Gemma 2와 비교하여, 글로벌 셀프 어텐션 레이어의 RoPE 기본 주파수를 10k에서 1M으로 증가시켰으며, 로컬 셀프 어텐션 레이어는 10k로 유지했습니다. 위 그림에서는 다양한 컨텍스트 길이에 대한 퍼플렉시티에 미치는 영향을 보여줍니다. 모델은 128K까지 일반화되지만 계속 확장함에 따라 빠르게 성능이 저하됩니다.

작은 교사 대 큰 교사

그림 8: 작은 교사와 큰 교사를 사용할 때의 퍼플렉시티 상대적 차이

위 그림은 학습 토큰 크기의 함수로서 작은 교사와 큰 교사를 사용할 때의 퍼플렉시티 상대적 차이를 보여줍니다. 이 플롯은 더 큰 교사 모델에서 증류하는 것이 더 작은 퍼플렉시티 상대적 차이로 표시되는 더 작은 토큰 크기에 더 유리하다는 것을 나타냅니다. 이는 더 큰 교사 모델을 사용하면 특히 제한된 학습 데이터가 있는 데이터셋에 대해 언어 모델의 성능을 향상시킬 수 있음을 시사합니다.

작은 모델을 학습시키기 위해서는 더 작은 교사에서 증류하는 것이 바람직하다는 것이 일반적인 발견입니다. 이는 이러한 연구들이 종종 더 나쁜 교사를 사용하는 정규화 효과가 더 나은 교사를 사용하는 이점을 능가하는 설정에서 수행되기 때문이라고 생각합니다. 다양한 학습 기간 동안 크기가 다른 두 교사에서 학생을 학습시킵니다. 위 그림에서는 짧은 학습 기간에는 더 작은 교사가 더 나은 결과를 보이지만, 더 긴 학습에서는 이 경향이 역전되는 것을 관찰합니다.

시각 인코더

해상도 DocVQA InfoVQA TextVQA
256 31.9 23.1 44.1
448 45.4 31.6 53.5
896 59.8 33.7 58.0

이미지 인코더 입력 해상도의 영향. 몇 가지 평가 벤치마크에서 짧은 일정의 2B Gemma 모델을 사용하여 시각 인코더 사전 학습에 대한 입력 이미지 해상도의 효과를 측정합니다.

이미지 해상도의 영향. Zhai와 연구진이 개발한 SigLIP에 기반한 시각 인코더를 사용합니다. 시각 인코더는 고정되어 있으며, 언어 모델만 학습됩니다. 이 다중 모달 데이터의 각 이미지는 해당 시각 인코더에서 256개의 이미지 토큰으로 표현됩니다. 따라서 더 높은 해상도 인코더는 출력을 256 토큰으로 줄이기 위해 평균 풀링을 사용합니다. 예를 들어, 896 해상도 인코더는 출력에 4x4 평균 풀링을 적용합니다. 표 7에서 볼 수 있듯이, 더 높은 해상도 인코더가 더 작은 인코더보다 성능이 우수합니다.

  DocVQA InfoVQA TextVQA
4B 72.8 44.1 58.9
4B w/ P&S 81.0 57.0 60.8
\( \Delta \) (+8.2) (+12.9) (+1.9)
27B 85.6 59.4 68.6
27B w/ P&S 90.4 76.4 70.2
\( \Delta \) (+4.8) (+17.0) (+1.6)

P&S의 영향. 사전 학습된 체크포인트에서 P&S를 사용하거나 사용하지 않는 4-샷 평가 결과(유효 세트). 다양한 종횡비를 가진 이미지나 이미지에 텍스트를 읽는 것과 관련된 작업에서 향상이 있습니다.

팬 & 스캔. P&S는 이미지를 원래 종횡비와 이미지 해상도에 가깝게 캡처할 수 있게 합니다. 표 8에서는 P&S를 사용하거나 사용하지 않는 27B IT 모델을 비교합니다. 예상대로, 이미지를 원래 해상도에 가깝게 처리할 수 있는 능력은 이미지에서 텍스트를 읽는 형태의 작업에 크게 도움이 되며, 이는 시각적 언어 모델에 특히 중요합니다.

결론

이 섹션에서는 Gemma 3 모델의 아키텍처 변경과 시각적 능력에 대한 다양한 실험 결과를 살펴보았습니다. 로컬:글로벌 어텐션 레이어 비율과 슬라이딩 윈도우 크기가 모델 성능과 메모리 효율성에 미치는 영향을 분석했으며, 특히 5:1의 로컬:글로벌 비율과 1024 크기의 슬라이딩 윈도우가 메모리 사용량을 크게 줄이면서도 성능을 유지하는 것을 확인했습니다.

또한 RoPE 리스케일링을 통한 긴 컨텍스트 처리 능력 향상, 교사 모델 크기가 증류 효과에 미치는 영향, 그리고 시각 인코더의 해상도와 팬 & 스캔 기법이 시각적 질의응답 작업에 미치는 영향을 검증했습니다. 이러한 실험 결과는 Gemma 3 모델의 설계 선택이 효율성과 성능 사이의 균형을 어떻게 최적화했는지 보여주며, 특히 시각적 이해 능력을 갖춘 다중 모달 모델로서의 강점을 강조합니다.

기억 및 개인정보 보호

대규모 언어 모델은 학습에 사용된 일부 텍스트를 거의 그대로 복제하여 생성할 수 있습니다(Carlini 등, 2021, 2022; Ippolito 등, 2022; Biderman 등, 2023; Nasr 등, 2023). 여러 이전 보고서들은 학습 데이터 기억률을 측정하는 감사를 통해 이러한 위험을 정량화했습니다(Gemini Team, 2023, 2024; Gemma Team, 2024a, b; Anil 등, 2023; Chowdhery 등, 2022; LLaMa Team, 2024).

이 “기억률”은 모델이 학습 데이터와 일치하는 생성물의 비율로 정의됩니다. 여기서 중요한 점은 모델이 학습 데이터를 “포함”한다는 의미가 아니라, 모델이 학습 데이터의 특성을 기억하여 특정 경우에 통계적으로 그러한 학습 데이터를 생성할 수 있다는 것입니다.

연구팀은 Gemma Team(2024b)에서 설명한 방법론을 따라 기억률을 측정했습니다. 구체적으로, 다양한 코퍼스에서 균일하게 분포된 학습 데이터의 큰 부분을 샘플링하고, 길이 50의 접두사와 길이 50의 접미사를 사용하여 발견 가능한 추출(Nasr 등, 2023)을 테스트했습니다. 텍스트는 다음과 같이 분류됩니다.

  1. “정확히 기억됨(exactly memorized)”: 모든 토큰이 원본 접미사와 일치하는 경우
  2. “대략적으로 기억됨(approximately memorized)”: 편집 거리가 10% 이내인 경우

아래 그림은 Gemma와 Gemini 모델 간의 기억률을 비교합니다. 이 모델들은 역시간 순서로 배열되어 있으며, 가장 최신 Gemma 3 모델이 왼쪽에 있습니다. 연구 결과에 따르면 Gemma 3 모델은 이전 모델들보다 장문 텍스트를 훨씬 낮은 비율로 기억합니다(로그 y축에 주목). 4B, 12B, 27B 모델 간의 기억률 차이는 미미하며, 1B 모델은 이러한 더 큰 모델들보다 기억률이 낮습니다. 또한, 텍스트의 더 큰 비율이 대략적으로 기억된 것으로 분류되며, 정확한 기억에 비해 대략적인 기억의 상대적 증가는 평균적으로 약 24배입니다.

그림 9: 정확한 기억과 대략적인 기억에 대한 총 기억률. Gemma 3 모델은 이전의 모든 모델보다 훨씬 적게 기억합니다. *이러한 모델에 대한 대략적인 기억 결과는 없습니다.

연구팀은 또한 생성물에 개인 정보가 포함될 수 있는 비율을 연구했습니다. 잠재적인 개인 정보를 식별하기 위해 Google Cloud Sensitive Data Protection(SDP) 서비스를 사용했습니다. SDP는 개인 정보를 포함할 수 있는 텍스트를 식별하기 위해 광범위한 탐지 규칙을 사용합니다. SDP는 높은 재현율(recall)을 갖도록 설계되었으며 정보가 나타날 수 있는 맥락을 고려하지 않기 때문에 많은 거짓 양성(false positive)을 초래합니다. 따라서 기억된 것으로 분류된 출력에 포함된 잠재적 개인 정보의 실제 양을 과대평가할 가능성이 높습니다.

SDP는 또한 낮음, 중간, 높음의 광범위한 심각도 수준을 제공합니다. 연구팀은 SDP가 어떤 심각도 수준에서든 개인 정보로 분류하는 경우 해당 텍스트를 개인 정보로 분류했습니다. 모든 Gemma 3 모델에 대해 기억으로 분류된 출력에서 개인 정보가 관찰되지 않았습니다. 이는 기억으로 분류된 출력에서 개인 데이터의 비율이 낮아 탐지 임계값 이하임을 나타냅니다.

이러한 결과는 Gemma 3 모델이 이전 모델들에 비해 학습 데이터를 훨씬 적게 기억하며, 특히 개인 정보와 관련된 데이터의 기억률이 매우 낮다는 것을 보여줍니다. 이는 모델의 개인정보 보호 특성을 향상시키는 중요한 발전입니다.

Carlini와 연구진의 연구에 따르면, 대규모 언어 모델의 기억률은 모델 크기, 학습 데이터 중복, 프롬프트 길이 등 여러 요소에 따라 로그-선형 관계를 가집니다. 특히 다음과 같은 관계가 있습니다.

  1. 더 큰 모델은 같은 계열 내에서 더 작은 모델보다 2-5배 더 많은 학습 데이터를 기억합니다. \( \text{기억률} \propto \log(\text{모델 크기}) \)

  2. 학습 세트에서 더 자주 반복되는 예제는 추출될 가능성이 더 높습니다. \( \text{기억률} \propto \log(\text{데이터 중복}) \)

  3. 더 긴 프롬프트는 기억된 텍스트를 추출하는 능력을 크게 증가시킵니다. \( \text{기억률} \propto \log(\text{프롬프트 길이}) \)

이러한 맥락에서 볼 때, Gemma 3 모델의 낮은 기억률은 특히 주목할 만합니다. 모델 크기가 증가함에 따라 기억률이 증가하는 일반적인 경향에도 불구하고, Gemma 3 모델은 이전 모델들보다 훨씬 낮은 기억률을 보여줍니다. 이는 모델 아키텍처의 개선, 학습 데이터의 신중한 선택과 필터링, 그리고 개인정보 보호를 위한 특별한 학습 기법이 효과적으로 적용되었음을 시사합니다.

또한, Nasr와 연구진이 제안한 “발견 가능한 추출(discoverable extraction)” 방법론은 모델이 학습 데이터를 얼마나 기억하는지 측정하는 효과적인 방법을 제공합니다. 이 방법은 모델에 특정 접두사를 제공하고 모델이 학습 데이터에서 본 접미사를 생성하는지 확인함으로써 기억률을 측정합니다. Gemma 3 모델에 대한 이러한 테스트 결과는 모델이 학습 데이터를 거의 그대로 복제하는 경향이 매우 낮다는 것을 보여줍니다.

개인 정보 보호 측면에서, Ippolito와 연구진은 단순히 정확한 기억을 방지하는 것만으로는 개인정보 보호를 보장하기에 충분하지 않을 수 있다고 지적합니다. 모델은 대문자, 구두점 변경, 동의어 사용 등 작은 수정을 통해 정확한 기억 필터를 우회하면서도 의미적으로 유사한 내용을 출력할 수 있습니다. 그러나 Gemma 3 모델에 대한 테스트 결과는 정확한 기억과 대략적인 기억 모두에서 낮은 비율을 보여주며, 특히 개인 정보와 관련된 데이터에서는 탐지 임계값 이하의 기억률을 보여줍니다. 이는 Gemma 3 모델이 개인정보 보호 측면에서 상당한 개선을 이루었음을 시사합니다.

결론적으로, Gemma 3 모델은 이전 모델들에 비해 학습 데이터 기억률이 크게 감소했으며, 특히 개인 정보와 관련된 데이터의 기억률이 매우 낮습니다. 이는 모델의 개인정보 보호 특성을 향상시키는 중요한 발전이며, 대규모 언어 모델의 안전한 배포와 사용에 기여할 수 있습니다.

책임, 안전, 보안

Gemma 모델의 개발에 있어 책임, 안전, 보안은 가장 중요한 요소입니다. Gemma 3 사용자들의 위험을 줄이기 위해, 연구팀은 Gemini Team의 최근 모델들과 일관되게 개발 워크플로우 전반에 걸쳐 향상된 내부 안전 프로세스를 통합했습니다. 이는 학습 시점의 안전 완화 조치와 새롭게 도입된 이미지-텍스트 기능에 대한 강력하고 투명한 모델 평가에 중점을 둡니다.

거버넌스 및 평가

Gemma의 이점과 위험을 평가하는 접근 방식은 Gemma Team이 Gemma 1에 대해 설명한 것과 유사하며, 지원되는 모달리티의 변화를 고려합니다. 연구팀은 AI의 개방성이 이러한 기술의 혜택을 사회 전반에 확산시킬 수 있다고 계속 믿고 있지만, 개인과 기관 수준 모두에서 해를 끼칠 수 있는 악의적 사용의 위험과 함께 평가되어야 합니다(Weidinger와 연구진).

Gemma 출시 이후, 연구팀은 이러한 모델들이 다양한 사회적으로 유익한 응용 프로그램을 주도하는 것을 확인했습니다. 예를 들어, Gemma 3으로 구축된 4B 이미지 안전 분류기인 ShieldGemma 2는 이미지 안전을 위한 즉시 사용 가능한 솔루션을 제공하며, 위험한 콘텐츠, 성적으로 노골적인 내용, 폭력 카테고리에 걸쳐 안전 라벨을 출력합니다.

Gemma 3 모델 출시에는 모델 기능의 변화에 대한 특별한 주의와 기존 멀티모달 LLM의 진화하는 위험에 대한 면밀한 모니터링이 필요했습니다(Lin과 연구진). 또한 모델이 실제로 어떻게 사용되고 있는지에 대한 이해도 필요했습니다. Gemma에 대한 악의적 사용 보고를 아직 받지 않았지만, 연구팀은 그러한 보고를 조사하는 데 계속 전념하고 있으며, 학계 및 개발자 커뮤니티와 협력하고 자체 모니터링을 수행하여 그러한 사례를 식별합니다. 기능의 발전에도 불구하고, 연구팀은 더 크고 강력한 오픈 모델이 이미 많이 사용 가능한 상황에서 이번 출시가 전반적인 위험 환경에 미치는 영향은 미미할 것이라고 판단합니다.

안전 정책 및 학습 시점 완화 조치

Gemma의 안전 접근법의 핵심 기둥은 Gemini Team의 모델과 일관되게 파인튜닝된 모델을 Google의 안전 정책과 일치시키는 것입니다. 이러한 정책들은 모델이 다음과 같은 유해한 콘텐츠를 생성하는 것을 방지하도록 설계되었습니다.

  • 아동 성적 학대 및 착취
  • 해를 끼칠 수 있는 개인 식별 정보 공개(예: 사회보장번호)
  • 혐오 발언 및 괴롭힘
  • 위험하거나 악의적인 콘텐츠(자해 촉진 또는 유해한 활동 지시 포함)
  • 성적으로 노골적인 콘텐츠
  • 과학적 또는 의학적 합의에 반하는 의학적 조언

연구팀은 사전 학습된 체크포인트와 파인튜닝된 체크포인트가 유해한 콘텐츠를 생성할 가능성을 줄이기 위해 사전 학습 데이터에 대한 상당한 안전 필터링을 수행했습니다. 파인튜닝된 모델의 경우, 바람직하지 않은 행동에서 모델을 멀어지게 하기 위해 SFT(지도 파인튜닝)와 RLHF(인간 피드백을 통한 강화 학습)를 모두 사용합니다.

보증 평가

연구팀은 또한 IT(지시 튜닝) 모델이 초래할 수 있는 잠재적 해악을 이해하기 위해 기본 보증 평가 세트를 실행합니다. 오픈 모델을 지지하면서도, 가중치 공개의 불가역적 특성이 엄격한 위험 평가를 필요로 한다는 점을 인식합니다. 내부 안전 프로세스는 이에 따라 설계되었으며, 이전 Gemma 모델에 대해서도 극단적 위험과 관련된 기능 평가를 수행했습니다(Shevlane과 연구진; Phuong과 연구진).

오픈 모델을 계속 개발하고 공유함에 따라, 연구팀은 더 능력 있는 모델을 철저히 평가하는 것이 종종 덜 능력 있는 모델에 대한 충분한 보증을 제공한다는 휴리스틱을 따를 것입니다. 따라서 Gemma 3에 대해서는 간소화된 평가 세트를 우선시하고, 특정 모델이 잠재적으로 높은 위험을 제시할 수 있는 경우(아래에서 CBRN 평가에 대해 설명된 바와 같이)에 대해서만 심층적인 위험 기능 평가를 예약합니다. 연구팀은 개발 속도와 표적화된 안전 테스트 사이의 균형을 맞추어, 평가가 잘 집중되고 효율적이면서도 프론티어 안전 프레임워크에 명시된 약속을 유지하도록 합니다.

기본 평가

기본 보증은 다수의 합성 적대적 사용자 쿼리를 사용하여 안전 정책에 대한 모델 위반 비율을 포착하고, 인간 평가자가 답변을 정책 위반 여부로 라벨링합니다. 전반적으로, Gemma 3의 이러한 안전 정책에 대한 위반 비율은 전체적으로 상당히 낮습니다.

화학, 생물학, 방사선 및 핵(CBRN) 지식

STEM 관련 작업에 대한 성능 향상으로 인해, 연구팀은 생물학적, 방사선 및 핵 위험과 관련된 지식을 내부 데이터셋의 폐쇄형, 지식 기반 객관식 질문을 사용하여 평가했습니다. 화학 지식 평가의 경우, Macknight와 연구진이 개발한 화학적 위험에 대한 폐쇄형 지식 기반 접근법을 사용했습니다. 평가 결과에 따르면 Gemma 3 모델의 이러한 영역에서의 지식 수준은 낮은 것으로 나타났습니다.

책임 있는 오픈 모델에 대한 접근 방식

안전하고, 보안이 유지되며, 책임감 있는 애플리케이션을 설계하려면 시스템 수준의 접근 방식이 필요하며, 각 특정 사용 사례와 환경과 관련된 위험을 완화하기 위해 노력해야 합니다. 연구팀은 모델에서 발생할 수 있는 잠재적 위험에 비례하는 평가와 안전 완화 조치를 계속 채택할 것이며, 이점이 예측 가능한 위험을 크게 상회한다고 확신할 때만 이를 커뮤니티와 공유할 것입니다.

Gemma 3의 안전 접근법은 Gemini Team이 개발한 방법론을 기반으로 하며, 이는 대규모 언어 모델의 안전한 개발과 배포를 위한 포괄적인 프레임워크를 제공합니다. 이 프레임워크는 모델 개발의 모든 단계에서 안전을 고려하는 것을 강조하며, 사전 학습 데이터 필터링부터 모델 평가 및 배포 후 모니터링에 이르기까지 다양한 안전 조치를 포함합니다.

안전 정책 구현의 핵심 측면 중 하나는 Ramé와 연구진이 개발한 가중치 평균 보상 모델(WARM)과 같은 기술을 사용하는 것입니다. WARM은 인간 피드백 데이터로 학습된 여러 보상 모델의 가중치 평균을 사용하여 모델 출력의 품질과 안전성을 향상시킵니다. 수학적으로, WARM은 다음과 같이 표현될 수 있습니다.

\[ R_{\text{WARM}}(x, y) = \sum_{i=1}^{N} w_i R_i(x, y) \]

여기서 \(R_i(x, y)\)는 입력 \(x\)와 출력 \(y\)에 대한 \(i\)번째 보상 모델의 점수이고, \(w_i\)는 해당 모델의 가중치입니다. 이 접근법은 다양한 안전 측면을 고려하는 더 균형 잡힌 보상 신호를 제공합니다.

또한, Gemma 3의 안전 평가는 Shevlane과 연구진이 제안한 프레임워크를 따릅니다. 이 프레임워크는 AI 시스템의 위험을 평가하기 위한 체계적인 접근법을 제공하며, 특히 극단적 위험에 중점을 둡니다. 이 프레임워크는 위험을 다음과 같이 분류합니다.

  1. 위험의 규모(Scale): 영향을 받는 개인 또는 기관의 수
  2. 위험의 심각도(Severity): 각 영향을 받는 개체에 대한 해악의 정도
  3. 위험의 가능성(Probability): 해악이 발생할 가능성

이러한 요소들을 고려하여, 연구팀은 Gemma 3 모델의 잠재적 위험을 평가하고 적절한 안전 조치를 구현했습니다.

CBRN 지식 평가와 관련하여, Macknight와 연구진이 개발한 방법론은 화학적 위험에 대한 모델의 지식을 평가하기 위한 체계적인 접근법을 제공합니다. 이 방법론은 다양한 화학 물질, 그 특성, 잠재적 위험에 대한 지식을 테스트하는 일련의 객관식 질문을 포함합니다. 이러한 평가는 모델이 잠재적으로 위험한 정보를 생성할 가능성을 이해하는 데 중요합니다.

결론적으로, Gemma 3의 책임, 안전, 보안에 대한 접근법은 포괄적이고 체계적이며, 모델 개발의 모든 단계에서 안전을 고려합니다. 연구팀은 모델의 이점이 잠재적 위험을 크게 상회할 때만 모델을 공개함으로써 책임 있는 AI 개발에 대한 약속을 보여줍니다. 이러한 접근법은 AI 기술의 안전하고 유익한 발전을 보장하는 데 중요합니다.

논의 및 결론

본 연구에서는 텍스트, 이미지, 코드를 위한 오픈 언어 모델 제품군인 Gemma의 최신 버전인 Gemma 3를 소개했습니다. 이번 버전에서는 이미지 이해 능력과 긴 컨텍스트 처리 기능을 추가하는 동시에 다국어 지원과 STEM 관련 능력을 향상시키는 데 중점을 두었습니다. Gemma 3의 모델 크기와 아키텍처는 표준 하드웨어와 호환되도록 설계되었으며, 대부분의 아키텍처 개선 사항은 성능을 유지하면서 이러한 하드웨어에 맞게 조정되었습니다.

Gemma 3는 이전 버전인 Gemma 2의 기반 위에 구축되었으며, 몇 가지 중요한 기술적 혁신을 도입했습니다. 특히 로컬 어텐션과 글로벌 어텐션 레이어의 5:1 비율을 사용하여 긴 컨텍스트 처리 시 메모리 효율성을 크게 향상시켰습니다. 이 접근법은 Beltagy와 연구진이 제안한 로컬 슬라이딩 윈도우 어텐션과 글로벌 어텐션을 결합한 것으로, 메모리 사용량을 줄이면서도 장거리 의존성을 효과적으로 포착할 수 있게 해줍니다.

또한 Gemma 3는 Zhai와 연구진이 개발한 SigLIP 비전 인코더를 통합하여 이미지 이해 능력을 추가했습니다. 이 인코더는 Dosovitskiy가 제안한 비전 트랜스포머(Vision Transformer) 아키텍처를 기반으로 하며, 이미지를 256개의 토큰으로 인코딩하여 언어 모델이 처리할 수 있게 합니다. 또한 팬 & 스캔(Pan & Scan) 방법을 도입하여 다양한 종횡비와 해상도의 이미지를 효과적으로 처리할 수 있게 했습니다.

Gemma 3의 학습 방법론은 Hinton과 연구진이 제안한 지식 증류 기법을 기반으로 합니다. 이 방법을 통해 작은 모델(학생 모델)이 큰 모델(교사 모델)의 지식을 효과적으로 학습할 수 있습니다. 수학적으로 표현하면, 학생 모델 \(P_S\)는 다음과 같은 목적 함수를 최소화하도록 학습됩니다.

\[ \min_{P_S} \sum_x -P_T(x \vert x_c) \log P_S(x \vert x_c) \]

여기서 \(P_T(x \vert x_c)\)는 컨텍스트 \(x_c\)가 주어졌을 때 다음 토큰 \(x\)에 대한 교사 모델의 확률 분포이고, \(P_S(x \vert x_c)\)는 학생 모델의 확률 분포입니다.

실험 결과, Gemma 3 모델은 다양한 벤치마크에서 이전 버전보다 크게 향상된 성능을 보여주었습니다. 특히 Gemma3-4B-IT 모델은 Gemma2-27B-IT와 비슷한 성능을 보이며, Gemma3-27B-IT는 다양한 벤치마크에서 Gemini-1.5-Pro와 비교할 만한 성능을 달성했습니다. 이는 효율적인 아키텍처 설계와 학습 방법론의 효과를 입증하는 결과입니다.

또한, Gemma 3 모델은 이전 모델들에 비해 학습 데이터 기억률이 크게 감소했으며, 특히 개인 정보와 관련된 데이터의 기억률이 매우 낮습니다. 이는 모델의 개인정보 보호 특성을 향상시키는 중요한 발전입니다.

Gemma 3의 안전 접근법은 Gemini Team이 개발한 방법론을 기반으로 하며, 모델이 유해한 콘텐츠를 생성하는 것을 방지하기 위한 다양한 안전 조치를 포함합니다. 이러한 안전 조치는 사전 학습 데이터 필터링부터 모델 평가 및 배포 후 모니터링에 이르기까지 모델 개발의 모든 단계에서 적용됩니다.

결론적으로, Gemma 3는 오픈 언어 모델 제품군에 다중 모달 기능, 긴 컨텍스트 처리 능력, 그리고 향상된 다국어 지원을 추가한 중요한 발전을 보여줍니다. 이러한 개선은 아키텍처 혁신, 효율적인 학습 방법, 그리고 사후 학습 최적화를 통해 이루어졌으며, 그 결과 더 작은 모델이 더 큰 모델과 비슷한 성능을 달성할 수 있게 되었습니다. Google DeepMind는 이러한 모델들을 커뮤니티에 공개하여 AI 연구와 응용 분야의 발전에 기여하고 있습니다.

부록: 사전 학습 성능 세부 사항

사실성 및 상식 능력

다음 표는 이전 버전과 비교한 새로운 사전 학습 벤치마크의 성능을 보여줍니다. 여러 표준 벤치마크를 고려했는데, 이는 HellaSwag(Zellers와 연구진), BoolQ(Clark와 연구진), PIQA(Bisk와 연구진), SIQA(Sap와 연구진), TriviaQA(Joshi와 연구진), Natural Questions(Kwiatkowski와 연구진), ARC-C와 ARC-E(Chollet), WinoGrande(Sakaguchi와 연구진), BBH(Suzgun와 연구진), DROP(Dua와 연구진)을 포함합니다. 평가 세부 사항은 아래 표에 설명되어 있습니다. 전반적으로, 이번 버전에서 중점을 둔 개선 사항이 아님에도 불구하고 Gemma 3 모델들은 Gemma 2와 비슷한 수준의 성능을 보여주고 있어 고무적입니다.

  Gemma 2 Gemma 3          
  2B 9B 27B 1B 4B 12B 27B
HellaSwag 72.9 81.9 86.4 62.3 77.2 84.2 85.6
BoolQ 75.6 77.5 76.2 63.2 72.3 78.8 82.4
PIQA 78.1 81.9 83.5 73.8 79.6 81.8 83.3
SIQA 51.8 53.3 53.8 48.9 51.9 53.4 54.9
TQA 60.2 76.5 83.8 39.8 65.8 78.2 85.5
NQ 17.2 29.2 34.7 9.48 20.0 31.4 36.1
ARC-C 55.8 69.1 71.4 38.4 56.2 68.9 70.6
ARC-E 80.6 88.3 88.6 73.0 82.4 88.3 89.0
WinoG 65.4 73.9 79.4 58.2 64.7 74.3 78.8
BBH 42.4 69.4 74.8 28.4 50.9 72.6 77.7
Drop 53.2 71.5 75.2 42.4 60.1 72.2 77.2

STEM 및 코드 성능

다음 표는 STEM 및 코드에 대한 성능 세부 사항을 보여줍니다. 여러 표준 벤치마크를 고려했는데, 이는 MMLU(Hendrycks와 연구진), MMLU-Pro(Wang와 연구진), AGIEval(Zhong와 연구진), MATH(Hendrycks와 연구진), GSM8K(Cobbe와 연구진), GPQA(Rein와 연구진), MBPP(Austin와 연구진), HumanEval(Chen와 연구진)을 포함합니다. 평가 세부 사항은 아래 표에 설명되어 있습니다. 전반적으로 사전 학습된 모델들에서 STEM 능력이 일관되게 향상된 것을 볼 수 있습니다. 코드 측면에서는 4B와 12B 모델에서 유사한 개선이 보이지만, 27B 모델에서는 그렇지 않습니다.

  Gemma 2 Gemma 3        
  2B 9B 27B 4B 12B 27B
MMLU 52.2 71.2 75.2 59.6 74.5 78.6
MMLUpro 22.2 43.7 49.4 29.2 45.3 52.2
AGIE 31.6 53.1 55.1 42.1 57.4 66.2
MATH 16.4 36.4 42.1 24.2 43.3 50.0
GSM8K 25.0 70.2 74.6 38.4 71.0 82.6
GPQA Diamond 12.5 24.8 26.3 15.0 25.4 24.3
MBPP 31.0 51.2 60.8 46.0 60.4 65.6
HumanE 19.5 40.2 51.2 36.0 45.7 48.8

이미지 이해 능력

다음 표는 비전 인코더와 함께 학습된 다양한 모델들의 다양한 시각적 질의응답 벤치마크에 대한 성능을 보여줍니다. 이는 COCO Caption(Chen와 연구진), DocVQA(Mathew와 연구진), InfographicVQA(Mathew와 연구진), MMMU(Yue와 연구진), TextVQA(Singh와 연구진), RealWorldQA(Rea), ReMI(Kazemi와 연구진), AI2D(Kembhavi와 연구진), ChartQA(Masry와 연구진), VQA v2(Goyal와 연구진), BLINK(Fu와 연구진), OK-VQA(Marino와 연구진), TallyQA(Acharya와 연구진), SpatialSense VQA(Yang와 연구진), CountBench VQA(Paiss와 연구진)를 포함합니다. 평가 세부 사항은 아래 표에 설명되어 있습니다.

  4B 12B 27B
COCO caption 102 111 116
DocVQA 72.8 82.3 85.6
InfoVQA 44.1 54.8 59.4
MMMU 39.2 50.3 56.1
TextVQA 58.9 66.5 68.6
RealWorldQA 45.5 52.2 53.9
ReMI 27.3 38.5 44.8
AI2D 63.2 75.2 79.0
ChartQA 63.6 74.7 76.3
VQAv2 63.9 71.2 72.9
BLINK 38.0 35.9 39.6
OK-VQA 51.0 58.7 60.2
TallyQA 42.5 51.8 54.3
SpatialSense VQA 50.9 60.0 59.4
CountBench VQA 26.1 17.8 68.0

PaliGemma 2와의 비교

Steiner와 연구진이 제안한 프로토콜을 따라 Gemma 3 사전 학습 체크포인트를 파인튜닝했습니다. 학습률만 조정하고 다른 전이 설정은 동일하게 유지했습니다. 아래 표의 결과는 Gemma 3가 문서 이해와 관련된 벤치마크에서 뛰어난 성능을 보이며, 더 큰 PaliGemma 2 변형보다도 우수한 성능을 보여준다는 것을 보여줍니다. 비전 인코더에서의 평균 풀링으로 인해 Gemma 3의 4B 및 12B 모델은 동일한 896 x 896 해상도에서 PaliGemma 2의 9B 및 27B 모델에 비해 약 10배 더 저렴하게 전이 학습할 수 있다는 점에 주목할 필요가 있습니다. Gemma 3는 AI2D와 OKVQA에서도 더 나은 성능을 보이지만, PaliGemma 2는 VQAv2와 COCO caption에서 약간 더 나은 성능을 보입니다.

  PaliGemma 2 Gemma 3        
  9B 27B 4B 12B 27B  
DocVQA 81.6 86.3 85.1 86.1 89.0 89.5
InfoVQA 41.4 53.1 50.2 55.6 61.6 64.6
TextVQA 76.3 76.3 75.1 79.1 81.6 83.2
ChartQA 70.7 79.1 71.3 79.8 83.5 83.4
AI2D 76.0 84.4 84.6 80.9 85.6 86.5
OKVQA 64.1 68.6 70.6 65.2 69.3 71.1
CountBenchQA 82.0 85.3 87.4 79.4 83.5 87.8
COCO caption 143.1 45.1 45.1 43.1 43.1 44.
VQAv2 84.8 85.8 85.8 84.1 84.9 85.1
Tally QA 80.6 82.4 82.1 79.0 81.3 81.7

다국어 성능

다음 표는 사전 학습된 모델들의 다국어 작업에 대한 성능을 보여줍니다. 멀티샷 프롬프팅을 통한 인-컨텍스트 학습을 적용하고 다음 벤치마크에 대한 결과를 제시합니다. MGSM(Shi와 연구진), Global-MMLU-Lite(Singh와 연구진), WMT24++(Deutsch와 연구진), FLoRes(Goyal와 연구진), XQuAD(Artetxe와 연구진), ECLeKTic(Goldman와 연구진), IndicGenBench(Singh와 연구진), XOR QA(Asai와 연구진). 평가 세부 사항은 아래 표에 설명되어 있습니다.

  Gemma 2 Gemma 3          
  2B 9B 27B 1B 4B 12B 27B
MGSM 18.7 57.3 68.0 2.04 34.7 64.3 74.3
GMMLU 43.3 64.0 69.4 24.9 57.0 69.4 75.7
WMT24++ 38.8 50.3 53.0 36.7 48.4 53.9 55.7
Flores 30.2 41.3 44.3 29.5 39.2 46.0 48.8
XQuAD 53.7 72.2 73.9 43.9 68.0 74.5 76.8
ECLeKTic 8.29 14.0 17.1 4.69 11.0 17.2 24.4
IndicGB 47.4 59.3 62.1 41.4 57.2 61.7 63.4

다음 표는 IndicGenBench 성능에 대한 자세한 내용을 보여줍니다.

  Gemma 2 Gemma 3          
  2B 9B 27B 1B 4B 12B 27B
XQuAD Indic 54.3 73.1 74.9 43.1 68.3 75.2 77.8
XORQA in-en 66.2 69.3 72.5 56.3 68.3 69.8 70.4
XORQA in-xx 31.2 40.8 44.3 27.1 39.8 43.8 46.0
Flores Indic 38.1 54.0 56.9 39.0 52.3 58.0 59.5

긴 컨텍스트 성능

다음 표는 사전 학습된 모델과 파인튜닝된 모델의 긴 컨텍스트 벤치마크에 대한 성능을 보여줍니다. Hsieh와 연구진이 제안한 RULER와 Vodrahalli와 연구진이 제안한 MRCR 벤치마크를 포함하여 32K 및 128K 시퀀스 길이에서 평가합니다.

  Gemma 3 PT Gemma 3 IT        
컨텍스트 4B 12B 27B 4B 12B 27B
RULER 32K 67.1 90.6 85.9 61.4 80.3 91.1
RULER 128K 51.7 80.7 72.9 46.8 57.1 66.0
MRCR 32K 44.7 59.8 63.2 49.8 53.7 63.2
MRCR 128K 40.6 56.9 60.0 44.6 49.8 59.3

IT 모델의 성능

다음 표는 다중 모달 벤치마크에 대한 지시 튜닝(IT) 모델의 성능을 보여줍니다. 특별히 언급되지 않은 경우, 이 결과는 P&S(팬 & 스캔)가 적용된 각 데이터셋의 최종 테스트 세트에 대한 것입니다.

  4B 12B 27B
MMMU (val) 48.8 59.6 64.9
DocVQA 75.8 87.1 86.6
InfoVQA 50.0 64.9 70.6
TextVQA 57.8 67.7 65.1
AI2D 74.8 84.2 84.5
ChartQA 68.8 75.7 78.0
VQAv2 (val) 62.4 71.6 71.0
MathVista (testmini) 50.0 62.9 67.6

다음 표에서는 IT 모델에 대한 추가 벤치마크를 보고합니다. N2C는 Natural2Code를 의미하며, 웹 기반 정보 대신 저자가 생성한 소스를 사용하는 Gemini 1.0 내부 보류 데이터셋입니다. BBEH는 BIG-Bench Extra Hard(Kazemi와 연구진)를 의미하며, 여러 추론 작업을 집계하는 도전적인 LLM 추론 벤치마크입니다(Kazemi와 연구진; Nie와 연구진; Kıcıman와 연구진; Tyen와 연구진; Kazemi와 연구진; Sánchez와 연구진; Hessel와 연구진; Zhang와 연구진; Yamada와 연구진; Fatemi와 연구진; White와 연구진; Shah와 연구진). ECLeKTic은 Goldman와 연구진을 참조합니다. 마이크로 평균 점수를 보고합니다. 더 많은 평가 세부 사항은 아래 표에 설명되어 있습니다.

  Gemma 2 Gemma 3          
  2B 9B 27B 1B 4B 12B 27B
MMLU 56.1 71.3 76.2 38.8 58.1 71.9 76.9
MBPP 36.6 59.2 67.4 35.2 63.2 73.0 74.4
HumanEval 20.1 40.2 51.8 41.5 71.3 85.4 87.8
N2C 46.8 68.3 77.3 56.0 70.3 80.7 84.5
LiveCodeBench 7.0 20.0 29.0 5.0 23.0 32.0 39.0
GSM8K 62.6 88.1 91.1 62.8 89.2 94.4 95.9
MATH 27.2 49.4 55.6 48.0 75.6 83.8 89.0
HiddenMath 2.0 8.0 12.0 15.0 42.0 51.0 56.0
BBH 41.4 69.0 74.9 39.1 72.2 85.7 87.6
BBEH 5.9 9.8 14.8 7.2 11.0 16.3 19.3
IFEval 80.4 88.4 91.1 80.2 90.2 88.9 90.4
GMMLU-Lite 41.9 64.8 68.6 34.2 54.5 69.5 75.1
ECLeKTic 5.3 11.8 17.6 1.4 4.6 10.3 16.7
WMT24++ 37.4 48.7 51.7 35.9 46.8 51.6 53.4

비디오 이해에 대한 IT 모델의 성능

다음 표는 비전 이해 벤치마크에 대한 지시 튜닝(IT) 모델의 성능을 보여줍니다. 16개 프레임 linspace를 사용한 0샷 방식으로 평가했습니다. Perception Test는 지각적으로 흥미로운 상황을 보여주도록 설계된 실제 비디오로 구성되며, 다중 선택 비디오 QA 벤치마크에 대한 결과를 상위 1 정확도 측면에서 보고합니다. ActivityNet-QA는 표준 gpt-평가를 보고합니다.

  4B 12B 27B
Perception Test MCVQA 50.6 54.9 58.1
ActivityNet-QA 46.3 50.4 52.8

추가 다중 모달 평가

Gemma 3 IT 모델은 Gemini 1.5(Gemini Team)의 평가 프로토콜을 따라 일반적인 비전 벤치마크에서 평가되었습니다. P&S가 활성화된 경우의 결과는 다음 표에 제시되어 있습니다.

다음 표는 텍스트 벤치마크에 대한 세부 사항을 보여줍니다. Char-Len은 문자 길이 정규화를 나타내고 COT는 체인 오브 소트 프롬프팅을 나타냅니다.

평가 메트릭 유형 n-shot COT 정규화
MBPP pass@1 샘플링 3-shot    
HumanEval pass@1 샘플링 0-shot    
HellaSwag 정확도 점수화 10-shot   Char-Len
BoolQ 정확도 점수화 0-shot   Char-Len
PIQA 정확도 점수화 0-shot   Char-Len
SIQA 정확도 점수화 0-shot   Char-Len
TriviaQA 정확도 샘플링 5-shot    
Natural Questions 정확도 샘플링 5-shot    
ARC-C 정확도 점수화 25-shot   Char-Len
ARC-E 정확도 점수화 0-shot   Char-Len
WinoGrande 정확도 점수화 5-shot   Char-Len
BBH 정확도 샘플링 few-shot  
DROP 토큰 F1 점수 샘플링 1-shot    
AGIEval 정확도 샘플링 3-5-shot    
MMLU 정확도 점수화 5-shot   Char-Len
MATH 정확도 샘플링 4-shot  
GSM8K 정확도 샘플링 8-shot  
GPQA Diamond 정확도 샘플링 5-shot  
MMLU-Pro 정확도 샘플링 5-shot  
MGSM 정확도 샘플링 8-shot    
FLoRes CHaRacter-level F-score 샘플링 1-shot    
Global-MMLU-Lite 정확도 점수화 5-shot   Char-Len
XQuAD CHaRacter-level F-score 샘플링 5-shot    
WMT24++ CHaRacter-level F-score 샘플링 5-shot    
ECLeKTic ECLeKTic 점수 샘플링 2-shot   First-line/strip
XQuAD Indic CHaRacter-level F-score 샘플링 5-shot    
XOR QA IN-EN CHaRacter-level F-score 샘플링 5-shot    
XOR QA IN-XX CHaRacter-level F-score 샘플링 5-shot    
FLoRes Indic CHaRacter-level F-score 샘플링 5-shot    
RULER 정확도 샘플링 0-shot    
MRCR MRCR 점수 샘플링 few-shot    

다음 표는 비전 벤치마크에 대한 세부 사항을 보여줍니다. 체인 오브 소트 프롬프팅이나 정규화는 사용되지 않았습니다.

평가 메트릭 유형 n-shot
COCO Caption Cider 점수 샘플링 4-shot
DocVQA ANLS 점수 샘플링 4-shot
InfographicVQA ANLS 점수 샘플링 4-shot
MMMU 정확도 샘플링 3-shot 텍스트만
TextVQA 정확도 샘플링 4-shot
RealWorldQA 정확도 샘플링 4-shot 텍스트만
ReMI 정확도 샘플링 4-shot
AI2D 정확도 샘플링 4-shot
ChartQA 정확도 샘플링 4-shot
VQA v2 정확도 샘플링 4-shot
BLINK 정확도 샘플링 0-shot
OK-VQA 정확도 샘플링 4-shot
TallyQA 정확도 샘플링 4-shot
SpatialSense VQA 정확도 샘플링 4-shot
CountBench VQA 정확도 샘플링 0-shot

다음 표는 지시 튜닝(IT) 벤치마크에 대한 세부 사항을 보여줍니다. 정규화는 사용되지 않았습니다.

평가 메트릭 유형 n-shot COT
MMLU 정확도 샘플링 0-shot  
MBPP pass@1 샘플링 3-shot  
HumanEval pass@1 샘플링 0-shot  
N2C pass@1 샘플링 0-shot  
LiveCodeBench 8개 샘플의 평균 샘플링 0-shot
GSM8K 정확도 샘플링 0-shot
GPQA Diamond 정확도 샘플링 0-shot
MATH 정확도 샘플링 0-shot  
HiddenMath 정확도 샘플링 0-shot  
BBH 정확도 샘플링 0-shot  
BBEH 정확도 샘플링 0-shot  
IFEval 정확도 샘플링 0-shot  
Global-MMLU-lite 정확도 샘플링 0-shot
ECLeKTic ECLeKTic 점수 샘플링 0-shot  
WMT24++ CHaRacter-level F-score 샘플링 0-shot  

이 레이더 차트는 두 AI 모델, Gemma 2 27B와 Gemma 3 27B의 성능을 여섯 가지 주요 지표(비전, 다국어, 코드, 과학, 추론, 사실성)에 걸쳐 시각화하고 비교합니다. 이 차트는 두 모델의 상대적 강점과 약점을 보여주며, 한 모델이 다른 모델보다 우수한 영역을 강조합니다. 이러한 유형의 시각화는 다양한 AI 시스템의 능력을 평가하고 비교하는 데 유용하며, 이는 모델 선택과 추가 연구 및 개발에 정보를 제공할 수 있습니다.


References