TL;DR

이 연구를 시작하게 된 배경과 동기는 무엇입니까?

대규모 언어 모델(LLM)의 발전은 최근 인공지능 분야에서 가장 주목받는 연구 영역 중 하나입니다. 기존의 대규모 모델들은 놀라운 성능을 보여주었지만, 대부분 계산 비용이 매우 높고 접근성이 제한적이었습니다. 특히 소규모 모델들의 성능 개선은 주로 훈련 길이 증가에 의존해 왔으며, 이는 데이터셋 크기에 대해 로그적으로만 확장되는 한계를 가지고 있었습니다. Chinchilla 논문에서 제시된 스케일링 법칙에 따르면, 최신 소형 모델들이 최첨단 성능을 1-2% 개선하기 위해서는 최대 15조 토큰이 필요하다는 점이 이러한 접근법의 비효율성을 잘 보여줍니다.

이러한 배경에서 Google DeepMind의 Gemma 팀은 소규모 언어 모델의 성능을 획기적으로 개선할 수 있는 새로운 접근법을 모색하게 되었습니다. 그들의 핵심 동기는 단순히 모델 크기나 훈련 데이터의 양을 늘리는 대신, 훈련 과정에서 네트워크가 받는 정보의 질을 근본적으로 개선하는 것이었습니다. 특히 지식 증류(knowledge distillation) 기법을 활용하여 더 큰 교사 모델의 확률 분포를 작은 학생 모델이 학습하도록 함으로써, 모델의 성능을 획기적으로 향상시킬 수 있다는 가능성에 주목했습니다.

이 연구에서 제시하는 새로운 해결 방법은 무엇입니까?

Gemma 2의 가장 혁신적인 접근법은 지식 증류 방법론입니다. 전통적인 다음 토큰 예측 대신, 큰 교사 모델의 확률 분포를 학습하는 방식으로 2B와 9B 모델을 훈련시켰습니다. 이 방법은 단순한 원-핫 벡터 대신 교사 모델에서 계산된 풍부한 확률 분포를 활용함으로써, 학생 모델이 더 미묘하고 정교한 언어 이해 능력을 개발할 수 있게 합니다. Hinton et al.의 증류 논문에서 제안된 이 기법은 더 풍부한 그래디언트를 제공하여 학습 효율성을 크게 향상시킵니다.

또한 트랜스포머 아키텍처에 여러 혁신적인 기술적 수정사항을 적용했습니다. Longformer 논문에서 제안된 로컬-글로벌 어텐션의 교대 배치와 GQA 논문의 그룹 쿼리 어텐션(Group-Query Attention) 메커니즘을 활용했습니다. 로컬 어텐션은 고정 크기 슬라이딩 윈도우를 사용하여 지역적 컨텍스트에 집중하고, 글로벌 어텐션은 선택적으로 몇 개의 사전 선택된 입력 위치에 집중하여 작업별 귀납적 편향을 제공합니다. 이러한 접근법은 계산 효율성과 장거리 의존성 포착 능력 사이의 균형을 혁신적으로 해결합니다.

제안된 방법은 어떻게 구현되었습니까?

Gemma 2는 20억 개에서 270억 개의 매개변수를 가진 세 가지 모델 크기(2B, 9B, 27B)로 구현되었습니다. 각 모델은 Vaswani et al.의 Transformer 논문에 기반한 디코더 전용 트랜스포머 아키텍처를 사용하며, 회전 위치 임베딩(RoPE)과 GeGLU 활성화 함수 등 최신 기법들을 통합했습니다. 특히 2B와 9B 모델은 7B 모델을 교사로 사용하여 지식 증류 방식으로 훈련되었으며, 이는 Chinchilla 논문의 계산 최적 이론이 예측하는 것보다 50배 이상 많은 토큰으로 훈련되었습니다.

훈련 인프라는 TPUv4, TPUv5e, TPUv5p를 활용했으며, 각 모델 크기에 따라 다른 칩 구성과 데이터 복제 전략을 사용했습니다. 2B 모델은 TPUv5e의 512개 칩, 9B 모델은 TPUv4의 4,096개 칩, 27B 모델은 TPUv5p의 6,144개 칩으로 훈련되었습니다. 옵티마이저 상태는 ZeRO-3와 유사한 기술을 사용하여 샤딩되었으며, JAX와 Pathways 프레임워크를 활용하여 효율적인 분산 훈련을 수행했습니다.

이 연구의 결과가 가지는 의미는 무엇입니까?

Gemma 2의 연구 결과는 소규모 언어 모델의 성능 향상에 대한 새로운 패러다임을 제시합니다. 지식 증류를 통해 2B 모델의 평균 성능을 처음부터 훈련한 모델 대비 7.4% 향상시켰으며, 심지어 2-3배 더 큰 모델들과도 경쟁력 있는 성능을 달성했습니다. 이는 단순히 모델 크기를 키우거나 훈련 데이터를 늘리는 대신, 훈련 과정에서 정보의 질을 개선하는 것이 더 효과적일 수 있음을 보여줍니다.

더불어 암송률과 개인 데이터 방출률에서도 획기적인 개선을 보였습니다. 암송률은 0.1% 미만, 개인 데이터 방출률은 0.00026%로 측정되어 프라이버시 보호 측면에서 중요한 진전을 나타냈습니다. 이러한 결과는 오픈 소스 언어 모델의 접근성을 높이면서도 안전성과 윤리적 고려사항을 동시에 해결할 수 있는 가능성을 보여줍니다. 특히 Responsible Generative AI Toolkit과 같은 추가 도구들을 통해 AI 기술의 긍정적인 사회적 영향을 확대할 수 있는 잠재력을 제시했습니다.


Gemma 2: 실용적 크기에서 오픈 언어 모델 개선

초록

Google DeepMind의 Gemma 팀이 발표한 Gemma 2는 경량화된 최첨단 오픈 언어 모델 패밀리의 새로운 구성원으로, 20억 개에서 270억 개의 매개변수 범위를 다룹니다. 이 새로운 버전에서는 트랜스포머 아키텍처에 여러 알려진 기술적 수정사항들을 적용했습니다. 특히 Longformer 논문에서 제안된 로컬-글로벌 어텐션의 교대 배치와 GQA 논문에서 소개된 그룹 쿼리 어텐션(Group-Query Attention)을 활용했습니다.

Gemma 2의 가장 혁신적인 접근법 중 하나는 2B와 9B 모델에서 기존의 다음 토큰 예측 대신 지식 증류(knowledge distillation)를 사용한 것입니다. Hinton et al.의 증류 논문에서 제안된 이 기법은 큰 교사 모델의 확률 분포를 작은 학생 모델이 학습하도록 하여, 더 풍부한 그래디언트를 제공합니다. 이를 통해 결과 모델들은 해당 크기에서 최고의 성능을 달성하며, 심지어 2-3배 더 큰 모델들과도 경쟁력 있는 대안을 제공합니다.

서론

대규모 언어 모델(LLM)은 언어 이해, 생성, 추론에서 강력한 능력을 보여주었습니다. GPT-3 논문에서 입증된 바와 같이, 스케일링이 이러한 최근 진전의 핵심이었으며, 많은 새로운 능력들이 오직 대규모에서만 나타났습니다. 최신 대형 모델들은 추론 벤치마크에서 전례 없는 성능에 도달할 뿐만 아니라, 멀티모달 및 다국어 능력, 그리고 100만 토큰 이상의 컨텍스트 길이를 처리하는 능력까지 보여줍니다.

소규모 모델들도 급속한 성능 향상을 보였지만, 이러한 개선은 주로 훈련 길이 증가에서 비롯되었습니다. 그러나 이 접근법은 데이터셋 크기에 대해 로그적으로만 확장되며, Chinchilla 논문의 스케일링 법칙에 따르면 최신 소형 모델들은 최첨단을 1-2% 미만 개선하기 위해 최대 15T 토큰이 필요합니다. 그럼에도 불구하고 이러한 지속적인 개선은 소형 모델들이 여전히 과소훈련되어 있다는 증거를 제공합니다.

지식 증류를 통한 혁신적 접근

본 연구에서는 단순히 훈련 길이만 늘리지 않고 소형 모델 성능을 향상시키는 대안을 탐구합니다. 핵심 아이디어는 각 훈련 단계에서 네트워크가 받는 정보의 질을 개선하는 것입니다. 구체적으로, 다음 토큰 예측 작업을 더 풍부한 목적 함수로 대체하는 것에 초점을 맞췄습니다.

지식 증류는 각 토큰에서 보는 원-핫 벡터를 대형 모델에서 계산된 잠재적 다음 토큰들의 분포로 대체합니다. 이 접근법은 일반적으로 더 풍부한 그래디언트를 제공하여 소형 모델의 훈련 시간을 단축하는 데 사용됩니다. 본 연구에서는 대신 증류를 통해 대량의 토큰으로 훈련하여 사용 가능한 토큰 수를 넘어선 훈련을 시뮬레이션합니다.

구체적으로, 대형 언어 모델을 교사로 사용하여 2B와 9B 모델을 훈련시켰으며, 이는 Chinchilla 논문의 이론이 예측하는 계산 최적 수량보다 50배 이상 많은 토큰 양입니다. 증류로 훈련된 모델들과 함께, 본 연구를 위해 처음부터 훈련된 27B 모델도 공개합니다.

아키텍처 개선사항

또한 트랜스포머의 여러 알려진 수정사항들을 활용했습니다. Longformer 논문의 글로벌 및 로컬 어텐션 레이어의 교대 배치는 효율적인 장거리 의존성 포착을 가능하게 합니다. 로컬 어텐션은 고정 크기 슬라이딩 윈도우를 사용하여 각 토큰이 지역적 컨텍스트에 집중할 수 있게 하고, 글로벌 어텐션은 선택적으로 몇 개의 사전 선택된 입력 위치에 집중하여 작업별 귀납적 편향을 제공합니다.

GQA 논문에서 제안된 그룹 쿼리 어텐션(GQA) 메커니즘도 채택했습니다. GQA는 쿼리 헤드들을 그룹으로 나누고 각 그룹이 키-값 헤드를 공유하도록 하여, 멀티헤드 어텐션(MHA)과 멀티쿼리 어텐션(MQA) 사이를 보간합니다. 이를 통해 MHA에 가까운 품질을 유지하면서 MQA에 비견되는 속도를 달성합니다.

모델 구성 및 성능

다음 표는 Gemma 2 모델들의 주요 매개변수와 설계 선택사항을 보여줍니다.

매개변수 2B 9B 27B
d_model 2304 3584 4608
레이어 수 26 42 46
Pre-norm
Post-norm
비선형성 GeGLU GeGLU GeGLU
헤드 타입 GQA GQA GQA
헤드 수 8 16 32
KV 헤드 수 4 8 16
헤드 크기 256 256 128
글로벌 어텐션 범위 8192 8192 8192
슬라이딩 윈도우 4096 4096 4096
어휘 크기 256128 256128 256128
임베딩 연결

전반적으로 Gemma 2는 비교 가능한 규모의 오픈 모델들 대비 최첨단 성능을 크게 향상시켰으며, 심지어 자신보다 두 배 이상 큰 일부 모델들과도 경쟁력을 보입니다. 이는 질문 답변, 상식 추론, 수학 및 과학, 코딩 등 다양한 자동화된 벤치마크와 인간 평가에서 입증되었습니다.

모든 Gemma 2 모델에 대한 철저한 테스트가 수행되었지만, 이러한 테스트는 Gemma 2가 사용될 수 있는 모든 애플리케이션과 시나리오를 다룰 수는 없습니다. 이를 염두에 두고, 모든 Gemma 2 사용자는 배포나 사용 전에 자신의 사용 사례에 특화된 엄격한 안전 테스트를 수행해야 합니다.

모델 아키텍처

Gemma 2 모델은 이전 Gemma 모델들과 마찬가지로 Vaswani et al.의 Transformer 논문에서 제안된 디코더 전용 트랜스포머 아키텍처를 기반으로 합니다. 이 아키텍처는 현대 대규모 언어 모델의 표준이 된 구조로, 셀프 어텐션 메커니즘을 핵심으로 하여 순차적인 텍스트 생성을 수행합니다.

기본 아키텍처 구성 요소

Gemma 2는 첫 번째 버전의 Gemma 모델과 몇 가지 공통된 아키텍처 요소들을 공유합니다. 먼저 컨텍스트 길이는 8192 토큰으로 설정되어 있어, 상당히 긴 문서나 대화를 처리할 수 있습니다. 이는 현대 언어 모델에서 요구되는 장거리 의존성 포착 능력을 제공합니다.

위치 임베딩으로는 Su et al.의 RoFormer 논문에서 제안된 회전 위치 임베딩(Rotary Position Embeddings, RoPE)을 사용합니다. RoPE는 절대 위치 정보를 회전 행렬을 통해 인코딩하면서 동시에 상대적 위치 의존성을 셀프 어텐션 공식에 명시적으로 포함시키는 혁신적인 방법입니다. 이 방식은 시퀀스 길이에 대한 유연성을 제공하고, 상대적 거리가 증가할수록 토큰 간 의존성이 감소하는 자연스러운 특성을 보입니다.

비선형 활성화 함수로는 Shazeer의 GLU 논문에서 제안된 근사 GeGLU(Gaussian Error Gated Linear Unit)를 사용합니다. GeGLU는 기존의 ReLU나 GELU 활성화 함수를 대체하는 게이트된 선형 유닛으로, 두 개의 선형 변환을 수행한 후 하나는 GELU 활성화를 거치고 다른 하나와 요소별 곱셈을 수행합니다. 이는 표준 활성화 함수보다 더 나은 성능을 보여주며, 특히 언어 이해 작업에서 개선된 결과를 제공합니다.

Gemma 2의 주요 혁신사항

Gemma 2는 첫 번째 버전과 비교하여 몇 가지 중요한 차이점을 도입했습니다. 가장 주목할 만한 변화는 더 깊은 네트워크 구조를 채택한 것입니다. 이는 모델의 표현 능력을 향상시키고 더 복잡한 패턴을 학습할 수 있게 합니다.

로컬 슬라이딩 윈도우와 글로벌 어텐션의 교대 배치

Gemma 2의 가장 혁신적인 특징 중 하나는 Longformer 논문에서 영감을 받은 로컬 슬라이딩 윈도우 어텐션과 글로벌 어텐션을 교대로 배치하는 것입니다. 이 접근법은 계산 효율성과 장거리 의존성 포착 능력 사이의 균형을 맞추는 우아한 해결책을 제공합니다.

로컬 슬라이딩 윈도우 어텐션 레이어에서는 각 토큰이 4096 토큰 크기의 고정된 윈도우 내의 토큰들에만 어텐션을 수행합니다. 이는 계산 복잡도를 크게 줄이면서도 지역적 컨텍스트를 효과적으로 포착할 수 있게 합니다. 예를 들어, 문장 내의 단어들 간의 관계나 단락 내의 문맥적 연결을 파악하는 데 매우 효과적입니다.

반면 글로벌 어텐션 레이어에서는 전체 8192 토큰 범위에 걸쳐 어텐션을 수행합니다. 이는 문서 전체에 걸친 장거리 의존성을 포착하는 데 필수적입니다. 예를 들어, 문서의 시작 부분에서 언급된 주제가 끝 부분에서 다시 참조되는 경우나, 긴 논증의 전체적인 구조를 이해하는 데 중요한 역할을 합니다.

이러한 교대 배치는 각 레이어가 서로 다른 종류의 정보를 처리하도록 하여, 전체적으로 더 효율적이면서도 강력한 표현 학습을 가능하게 합니다. 로컬 어텐션 레이어가 세밀한 지역적 패턴을 포착하면, 글로벌 어텐션 레이어가 이를 전체적인 맥락과 연결시키는 방식으로 작동합니다.

로짓 소프트 캐핑

Gemma 2는 훈련 안정성을 향상시키기 위해 로짓 소프트 캐핑(logit soft-capping) 기법을 도입했습니다. 이는 Bello et al.의 연구에서 영감을 받은 기법으로, 어텐션 레이어와 최종 레이어에서 로짓 값을 제한하는 방법입니다.

구체적으로, 로짓 값이 특정 범위를 벗어나지 않도록 다음과 같은 함수를 적용합니다.

\[\text{logits} \leftarrow \text{soft cap} \times \tanh\left(\frac{\text{logits}}{\text{soft cap}}\right)\]

이 함수는 로짓 값을 $-\text{soft cap}$과 $+\text{soft cap}$ 사이로 부드럽게 제한합니다. $\tanh$ 함수의 특성상 입력 값이 매우 클 때도 출력이 점진적으로 포화되어, 급격한 변화를 방지합니다.

셀프 어텐션 레이어에서는 $\text{soft cap}$ 매개변수를 50.0으로 설정하고, 최종 레이어에서는 30.0으로 설정합니다. 이러한 차별화된 설정은 각 레이어의 역할과 특성을 고려한 것입니다. 어텐션 레이어에서는 상대적으로 더 큰 범위를 허용하여 다양한 어텐션 패턴을 학습할 수 있게 하고, 최종 레이어에서는 더 보수적인 제한을 두어 출력의 안정성을 보장합니다.

이 기법은 훈련 과정에서 발생할 수 있는 그래디언트 폭발이나 수치적 불안정성을 방지하는 데 매우 효과적입니다. 특히 대규모 모델에서는 로짓 값이 매우 커질 수 있는데, 이를 적절히 제어함으로써 더 안정적인 학습이 가능해집니다.

매개변수 구성

Gemma 2 모델들의 매개변수 분포는 다음과 같습니다.

모델 임베딩 매개변수 비임베딩 매개변수
2B 590,118,912 2,024,517,888
9B 917,962,752 8,324,201,984
27B 1,180,237,824 26,047,480,320

이 표에서 주목할 점은 임베딩 매개변수의 비중이 상당히 크다는 것입니다. 이는 Gemma 2가 대규모 Gemini 어휘(256k 항목)를 상속받았기 때문입니다. 이 어휘는 다양한 언어에서 작동하도록 설계되었으며, 따라서 하나 또는 몇 개의 언어로 제한된 모델들에 비해 더 큰 임베딩 매개변수 수를 가집니다.

이러한 대규모 어휘는 다국어 지원과 더 풍부한 토큰 표현을 가능하게 하지만, 동시에 메모리 사용량과 계산 비용을 증가시키는 트레이드오프를 가집니다. 그러나 이는 모델의 범용성과 다양한 언어 및 도메인에서의 성능을 크게 향상시키는 중요한 요소입니다.

정규화 기법

훈련 안정성을 위해 Gemma 2는 Zhang and Sennrich의 RMSNorm 논문에서 제안된 RMSNorm(Root Mean Square Normalization)을 사용합니다. RMSNorm은 LayerNorm의 단순화된 변형으로, 재중심화(re-centering) 연산을 제거하고 루트 평균 제곱(RMS) 통계만을 사용하여 정규화를 수행합니다.

RMSNorm은 다음과 같이 정의됩니다.

\[\bar{a}_i = \frac{a_i}{\text{RMS}(a)}g_i\]

여기서 $\text{RMS}(a) = \sqrt{\frac{1}{n}\sum_{i=1}^n a_i^2}$입니다.

Gemma 2에서는 각 트랜스포머 서브레이어(어텐션 레이어와 피드포워드 레이어)의 입력과 출력에 RMSNorm을 적용합니다. 이는 포스트 정규화(post-norm)와 프리 정규화(pre-norm) 방식을 모두 사용하는 것으로, 각각의 장점을 활용하여 더 안정적인 훈련을 가능하게 합니다.

그룹 쿼리 어텐션

Gemma 2는 Ainslie et al.의 GQA 논문에서 제안된 그룹 쿼리 어텐션(Grouped-Query Attention, GQA)을 채택했습니다. GQA는 멀티헤드 어텐션(MHA)과 멀티쿼리 어텐션(MQA) 사이의 절충안으로, 품질과 추론 속도 사이의 균형을 맞추는 혁신적인 접근법입니다.

Gemma 2에서는 $\text{num_groups} = 2$로 설정하여 GQA를 구현합니다. 이는 쿼리 헤드들을 2개의 그룹으로 나누고, 각 그룹이 키-값 헤드를 공유하도록 하는 것입니다. 이러한 설정은 어블레이션 연구를 통해 추론 시간에서의 속도 향상을 제공하면서도 다운스트림 성능을 유지하는 것으로 확인되었습니다.

GQA의 핵심 아이디어는 모든 쿼리 헤드가 독립적인 키-값 헤드를 가질 필요가 없다는 관찰에서 출발합니다. 대신 여러 쿼리 헤드가 키-값 헤드를 공유함으로써 메모리 사용량을 줄이고 추론 속도를 향상시킬 수 있습니다. 특히 대규모 모델에서는 키-값 캐시가 메모리 병목이 될 수 있는데, GQA는 이를 효과적으로 완화합니다.

이러한 아키텍처 혁신들은 Gemma 2가 이전 버전 대비 더 효율적이면서도 강력한 성능을 달성할 수 있게 하는 핵심 요소들입니다. 각각의 기법들이 서로 시너지를 이루어 전체적으로 균형 잡힌 모델 아키텍처를 구성합니다.

사전 훈련

Gemma 2의 사전 훈련 과정은 첫 번째 버전인 Gemma 1과 비교하여 몇 가지 중요한 차이점을 보입니다. 이 섹션에서는 훈련 데이터, 지식 증류 방법론, 계산 인프라, 그리고 탄소 발자국 추정에 대해 상세히 살펴보겠습니다.

훈련 데이터

Gemma 2 모델들은 각각 다른 규모의 데이터셋으로 훈련되었습니다. 27B 모델은 13조 토큰, 9B 모델은 8조 토큰, 그리고 2B 모델은 2조 토큰의 주로 영어 데이터로 훈련되었습니다. 이러한 데이터는 웹 문서, 코드, 과학 논문 등 다양한 출처에서 수집되었습니다.

중요한 점은 Gemma 2 모델들이 멀티모달 기능을 위해 설계되지 않았으며, 최첨단 다국어 능력을 위한 특별한 훈련도 받지 않았다는 것입니다. 이는 모델의 설계 철학이 특정 언어(주로 영어)에서의 높은 성능에 집중되어 있음을 의미합니다.

최종 데이터 혼합은 Gemini 1.0 논문에서 사용된 접근법과 유사한 어블레이션 연구를 통해 결정되었습니다. 이러한 체계적인 접근법은 각 데이터 소스의 기여도를 정량적으로 평가하여 최적의 성능을 달성할 수 있는 데이터 조합을 찾는 과정입니다.

토크나이저

Gemma 2는 Gemma 1 및 Gemini와 동일한 토크나이저를 사용합니다. 이는 SentencePiece 논문에서 제안된 SentencePiece 토크나이저로, 숫자 분할, 공백 보존, 바이트 레벨 인코딩 기능을 포함합니다. 결과적으로 생성되는 어휘는 256,000개의 항목을 포함합니다.

SentencePiece 토크나이저의 핵심 특징은 언어 독립적이면서도 무손실 토큰화를 제공한다는 점입니다. 숫자 분할 기능은 수치 정보를 더 효과적으로 처리할 수 있게 하며, 공백 보존은 입력 텍스트의 구조를 유지합니다. 바이트 레벨 인코딩은 다양한 문자와 언어를 처리할 수 있는 능력을 제공합니다.

필터링

데이터 필터링 과정에서는 Gemma 1과 동일한 기법들이 적용되었습니다. 구체적으로는 원하지 않거나 안전하지 않은 발화의 위험을 줄이기 위한 사전 훈련 데이터셋 필터링, 특정 개인 정보나 기타 민감한 데이터의 제거, 평가 세트의 사전 훈련 데이터 혼합으로부터의 오염 제거, 그리고 민감한 출력의 확산을 최소화하여 암송 위험을 줄이는 작업이 포함됩니다.

이러한 다층적 필터링 접근법은 모델의 안전성과 신뢰성을 보장하는 데 중요한 역할을 합니다. 특히 개인 정보 보호와 관련된 필터링은 현대 언어 모델의 배포에서 필수적인 요소가 되었습니다.

다음 표는 각 모델의 훈련 인프라 구성을 보여줍니다.

모델 타입 칩 수 데이터 복제 모델 샤딩
2B TPUv5e 512 512 1
9B TPUv4 4096 1024 4
27B TPUv5p 6144 768 8

지식 증류

지식 증류는 Gemma 2의 가장 혁신적인 특징 중 하나입니다. 큰 모델을 교사로 사용하여, 각 토큰 $x$가 주어진 컨텍스트 $x_c$에 대해 교사가 제공하는 확률 $P_T(x \vert x_c)$로부터 더 작은 모델들을 학습시킵니다.

구체적으로, 교사와 학생 간의 확률 분포 차이를 최소화하는 음의 로그 우도를 최소화합니다.

\[\min_{P_S} \sum_x -P_T(x|x_c) \log P_S(x|x_c)\]

여기서 $P_S$는 학생 모델의 매개변수화된 확률입니다.

이 접근법의 핵심 아이디어는 전통적인 다음 토큰 예측에서 사용되는 원-핫 벡터 대신, 교사 모델에서 계산된 풍부한 확률 분포를 활용한다는 것입니다. Hinton et al.의 증류 논문에서 제안된 이 기법은 일반적으로 더 풍부한 그래디언트를 제공하여 학습 효율성을 향상시킵니다.

Gemma 2에서는 이 증류 기법을 사용하여 Chinchilla 논문의 계산 최적 이론이 예측하는 것보다 50배 이상 많은 토큰으로 2B와 9B 모델을 훈련시켰습니다. 이는 사용 가능한 토큰 수를 넘어선 훈련을 시뮬레이션하는 효과를 가져옵니다.

지식 증류의 장점은 단순히 훈련 시간을 단축하는 것을 넘어서, 작은 모델이 큰 모델의 복잡한 의사결정 패턴을 학습할 수 있게 한다는 점입니다. 교사 모델의 소프트 타겟은 각 토큰에 대한 불확실성과 대안적 선택들에 대한 정보를 포함하고 있어, 학생 모델이 더 미묘하고 정교한 언어 이해 능력을 개발할 수 있게 합니다.

계산 인프라

Gemma 2 모델들은 TPUv4, TPUv5e, TPUv5p를 사용하여 훈련되었습니다. 각 모델 크기에 따른 구체적인 구성은 다음과 같습니다.

2B 모델의 경우 TPUv5e의 2x16x16 구성에서 총 512개의 칩을 사용하여 훈련되었으며, 512-way 데이터 복제와 1-way 모델 샤딩을 적용했습니다. 9B 모델은 TPUv4의 8x16x32 구성에서 총 4,096개의 칩을 사용하여 1,024-way 데이터 복제와 4-way 모델 샤딩을 적용했습니다. 27B 모델은 TPUv5p의 8x24x32 구성에서 총 6,144개의 칩을 사용하여 768-way 데이터 복제와 8-way 모델 샤딩을 적용했습니다.

옵티마이저 상태는 ZeRO-3 기법과 유사한 기술을 사용하여 추가로 샤딩되었습니다. 이는 메모리 사용량을 크게 줄이면서도 훈련 효율성을 유지할 수 있게 합니다.

단일 포드를 넘어서는 규모에서는 Pathways 접근법을 사용하여 데이터 센터 네트워크를 통한 데이터 복제 감소를 수행했습니다. 또한 JAXPathways의 '단일 컨트롤러' 프로그래밍 패러다임을 사용했습니다.

Gemma 1과 마찬가지로, 훈련 단계 계산을 위해 GSPMD 파티셔너MegaScale XLA 컴파일러를 사용했습니다. GSPMD는 사용자가 단일 장치용으로 작성한 머신러닝 프로그램을 자동으로 여러 장치에 병렬화할 수 있게 하는 컴파일러 기반 시스템입니다.

다음 표는 대화형 모델에서 사용되는 관련 형식 제어 토큰들을 보여줍니다.

컨텍스트 관련 토큰
사용자 턴 user
모델 턴 model
대화 턴 시작 <start_of_turn>
대화 턴 종료 <end_of_turn>
시퀀스 시작 <bos>
시퀀스 종료 <eos>

탄소 발자국

Gemma 모델들의 사전 훈련으로 인한 탄소 배출량은 1,247.61 $tCO_2eq$로 추정됩니다. 이 값은 Gemma 1과 마찬가지로 TPU 데이터 센터에서 직접 보고된 시간당 에너지 사용량을 기반으로 계산되었으며, 데이터 센터를 생성하고 유지하는 데 소요되는 추가 에너지를 고려하여 조정되었습니다.

중요한 점은 Google 데이터 센터가 에너지 효율성, 재생 에너지 구매, 탄소 상쇄의 조합을 통해 탄소 중립을 달성했다는 것입니다. 이러한 탄소 중립성은 실험과 이를 실행하는 머신에 적용됩니다.

이러한 환경적 고려사항은 현대 대규모 언어 모델 개발에서 점점 더 중요해지고 있습니다. 모델의 성능 향상과 함께 환경적 지속가능성을 고려하는 것은 AI 연구 커뮤니티의 중요한 책임이 되었습니다.

후처리

Gemma 2의 후처리 과정은 사전 훈련된 모델을 실제 사용자와의 상호작용에 적합한 지시 따르기 모델로 변환하는 핵심 단계입니다. 이 과정은 지도 학습 미세조정(Supervised Fine-Tuning, SFT), 인간 피드백을 통한 강화학습(Reinforcement Learning from Human Feedback, RLHF), 그리고 모델 병합(Model Merging)의 세 가지 주요 단계로 구성됩니다.

지도 학습 미세조정

지도 학습 미세조정 단계에서는 텍스트 전용, 영어 전용의 합성 및 인간 생성 프롬프트-응답 쌍의 혼합 데이터셋을 사용하여 모델을 미세조정합니다. 이 과정에서 핵심적인 기법은 행동 복제(Behavioral Cloning)와 지식 증류입니다.

행동 복제는 합성 및 실제 프롬프트에 대해 수행되며, 응답은 주로 더 큰 교사 모델에 의해 합성적으로 생성됩니다. 이는 Agarwal et al.의 온폴리시 증류 연구Gu et al.의 MiniLLM 연구에서 제안된 방법론과 유사한 접근법입니다. 특히 교사 모델의 분포에서 학생 모델로의 증류를 수행하는데, 이는 단순한 다음 토큰 예측보다 더 풍부한 학습 신호를 제공합니다.

지식 증류 과정에서는 교사 모델이 각 토큰에 대해 제공하는 확률 분포를 활용하여 학생 모델이 더 미묘한 언어 패턴을 학습할 수 있게 합니다. 이는 원-핫 벡터 대신 소프트 타겟을 사용함으로써 모델이 불확실성과 대안적 선택들에 대한 정보를 함께 학습할 수 있게 하는 중요한 장점을 제공합니다.

대화 형식과 제어 토큰

Gemma 2 모델들은 Gemma 1 모델과 동일한 제어 토큰을 사용하여 미세조정되지만, 다른 형식 스키마를 적용합니다. 다음 표는 대화형 모델에서 사용되는 관련 형식 제어 토큰들을 보여줍니다.

컨텍스트 관련 토큰
사용자 턴 user
모델 턴 model
대화 턴 시작 <start_of_turn>
대화 턴 종료 <end_of_turn>
시퀀스 시작 <bos>
시퀀스 종료 <eos>

새로운 형식 스키마의 핵심 변화는 모델이 명시적으로 <end_of_turn><eos> 토큰으로 생성을 종료한다는 점입니다. 이전 버전에서는 <eos> 토큰만 생성했지만, Gemma 2에서는 더 명확한 턴 종료 신호를 제공합니다.

다음은 새로운 대화 형식의 구체적인 예시입니다.

첫 번째 턴:

User:<start_of_turn>userKnock knock. <end_of_turn><start_of_turn>modelModel:Who's there? <end_of_turn><eos>

두 번째 턴:

User:<start_of_turn>userKnock knock. <end_of_turn><start_of_turn>modelModel:Who's there? <end_of_turn>User:<start_of_turn>userGemma. <end_of_turn><start_of_turn>modelModel:Gemma who? <end_of_turn><eos>

멀티턴 대화를 계속하려면 모델이 출력한 <eos> 토큰을 제거하고, 일반적인 사용자 턴의 제어 토큰을 다시 추가한 후 다음 턴의 채팅 템플릿으로 계속 진행하면 됩니다.

인간 피드백을 통한 강화학습

RLHF 단계에서는 Gemma 1.1과 유사한 알고리즘을 사용하지만, 다른 보상 모델을 적용합니다. 새로운 보상 모델은 정책 모델보다 한 차수 더 큰 규모를 가지며, 특히 멀티턴 대화 능력에 더 중점을 둡니다.

이 접근법은 WARP 연구에서 제안된 가중 평균 보상 정책의 개념과 연관됩니다. WARP에서는 KL 정규화에서 정적인 SFT 초기화 대신 정책의 지수 이동 평균(EMA)을 앵커로 사용하여 자동적인 KL 제약 어닐링과 평균 교사로부터의 증류를 제공합니다. 이러한 기법들은 Gemma 2의 RLHF 과정에서 훈련 안정성과 성능 향상에 기여할 수 있습니다.

보상 모델의 규모가 정책 모델보다 크다는 점은 특히 중요합니다. 이는 보상 모델이 더 정교한 평가 기준을 학습할 수 있게 하여, 정책 모델이 더 미묘하고 복잡한 인간의 선호도를 반영할 수 있도록 돕습니다. 멀티턴 대화에 특화된 보상 모델은 단일 응답뿐만 아니라 대화의 일관성, 맥락 유지, 그리고 장기적인 대화 품질을 평가할 수 있습니다.

모델 병합

최종 단계에서는 각 단계에서 얻은 모델들을 평균화하여 전체적인 성능을 향상시킵니다. 이는 Ramé et al.의 WARP 연구에서 제안된 모델 병합 기법과 유사한 접근법입니다.

모델 병합 과정에서는 서로 다른 하이퍼파라미터로 파이프라인을 실행하여 얻은 여러 모델들을 평균화합니다. 이러한 접근법은 개별 모델들의 강점을 결합하면서 약점을 상쇄하는 효과를 가져옵니다. WARP 연구에서는 구면 선형 보간(SLERP)을 사용하여 독립적으로 보상된 정책들의 태스크 벡터를 병합하는 방법을 제안했는데, 이는 선형 보간보다 더 높은 보상을 달성할 수 있음을 보여주었습니다.

데이터 필터링

합성 데이터를 사용할 때는 여러 단계의 필터링을 거쳐 특정 개인 정보, 안전하지 않거나 독성이 있는 모델 출력, 잘못된 자기 식별 데이터, 그리고 중복된 예시들을 제거합니다.

특히 Gemini의 접근법을 따라, 더 나은 맥락 내 귀속(in-context attribution), 헤징(hedging), 그리고 거부(refusal)를 장려하는 데이터의 하위 집합을 포함시킴으로써 환각을 최소화하는 것이 사실성 지표에서 성능을 향상시키면서도 다른 지표에서의 모델 성능을 저하시키지 않는다는 것을 발견했습니다.

이러한 필터링 접근법은 모델이 불확실한 정보에 대해 적절히 헤징하고, 잘못된 정보 제공을 거부하며, 정보의 출처를 명확히 하는 능력을 향상시킵니다. 이는 특히 사실성이 중요한 응용 분야에서 모델의 신뢰성을 크게 향상시키는 중요한 요소입니다.

데이터 확장 및 외부 데이터 활용

후처리 데이터는 Gemma 1.1에서 사용된 데이터를 내부 및 외부 공개 데이터의 혼합으로 확장했습니다. 특히 LMSYS-Chat-1M 데이터셋의 프롬프트는 사용하지만 답변은 사용하지 않는 방식을 채택했습니다.

LMSYS-Chat-1M 데이터셋은 25개의 최첨단 LLM과의 100만 개 이상의 실제 사용자 대화를 포함하는 대규모 실제 LLM 대화 데이터셋입니다. 이 데이터셋의 프롬프트를 활용함으로써 Gemma 2는 실제 사용자들이 언어 모델에게 묻는 다양한 질문과 요청의 분포를 학습할 수 있습니다. 답변을 사용하지 않는 이유는 Gemma 2만의 고유한 응답 스타일과 품질을 유지하기 위함입니다.

최종 데이터 혼합 및 하이퍼파라미터 조정

최종 데이터 혼합과 조정된 하이퍼파라미터를 포함한 후처리 레시피는 유용성을 향상시키면서 안전성 및 환각과 관련된 모델 위험을 최소화하는 기준으로 선택되었습니다.

이러한 균형 잡힌 접근법은 모델이 사용자에게 도움이 되는 응답을 제공하면서도 잠재적인 위험을 최소화할 수 있도록 합니다. 유용성과 안전성 사이의 트레이드오프를 신중하게 관리함으로써, Gemma 2는 실용적이면서도 책임감 있는 AI 시스템으로 설계되었습니다.

모든 데이터는 앞서 설명한 필터링 단계를 거치며, 이는 모델의 품질과 안전성을 보장하는 중요한 과정입니다. 이러한 체계적인 후처리 과정을 통해 Gemma 2는 사전 훈련된 기본 모델에서 실제 사용자와 효과적으로 상호작용할 수 있는 지시 따르기 모델로 성공적으로 변환됩니다.

어블레이션 연구

이 섹션에서는 본 연구의 핵심 발견인 지식 증류가 소형 언어 모델에 미치는 영향에 집중하여 다양한 어블레이션 연구 결과를 제시합니다.

지식 증류 대 처음부터 훈련

훈련 방식 평균 성능 (3개 벤치마크)
처음부터 훈련 60.3
증류 훈련 67.7

위 표는 500B 토큰으로 훈련된 2B 모델을 처음부터 훈련한 경우와 7B 모델로부터 증류한 경우의 성능을 비교한 결과입니다. 증류를 통한 훈련이 처음부터 훈련하는 것보다 성능을 크게 향상시킨다는 것을 보여줍니다. 주목할 점은 500B 토큰이 2B 모델의 계산 최적 토큰 수보다 10배 많다는 것입니다. 7B 모델로부터 증류하는 것은 최종 목표인 27B에서 9B로의 증류와 유사한 비율을 유지하기 위함입니다.

이러한 결과는 지식 증류의 핵심 가치를 명확히 보여줍니다. 단순히 더 많은 토큰으로 훈련하는 것보다, 큰 모델의 풍부한 확률 분포를 학습하는 것이 더 효과적임을 입증합니다. 앞서 설명한 증류 방법론에서 교사 모델이 제공하는 소프트 타겟은 각 토큰에 대한 불확실성과 대안적 선택들에 대한 정보를 포함하고 있어, 학생 모델이 더 미묘하고 정교한 언어 이해 능력을 개발할 수 있게 합니다.

모델 크기에 따른 증류 효과

모델 크기 처음부터 훈련 증류 훈련 (7B 교사)
200M 23 21
400M 19 17
1B 17 15

이 표는 검증 세트에서 측정된 퍼플렉시티 값으로, 다양한 크기의 모델에서 증류의 영향을 보여줍니다. 교사 모델은 7B 매개변수를 유지했습니다. 모델 크기가 증가함에 따라 증류의 이득이 지속적으로 유지됨을 관찰할 수 있습니다. 이 어블레이션에서는 최종 교사와 학생 크기 간의 동일한 격차를 시뮬레이션하기 위해 교사 크기를 7B로 유지하고 더 작은 모델들을 훈련시켰습니다.

퍼플렉시티 값이 낮을수록 더 나은 성능을 의미하므로, 모든 크기에서 증류 훈련이 일관되게 우수한 결과를 보여줍니다. 이는 지식 증류의 효과가 특정 모델 크기에 국한되지 않고 다양한 규모에서 일반화될 수 있음을 시사합니다.

그룹 쿼리 어텐션 대 멀티헤드 어텐션

어텐션 방식 평균 성능 (4개 벤치마크)
MHA 50.3
GQA 50.8

9B 모델에서 멀티헤드 어텐션(MHA)을 그룹 쿼리 어텐션(GQA)으로 교체한 영향을 비교한 결과입니다. 두 모델 간의 전반적인 성능 차이는 여러 벤치마크에서 측정했을 때 거의 없음을 관찰할 수 있습니다. 앞서 소개한 GQA 메커니즘이 더 적은 매개변수를 요구하면서도 추론 시간에서 더 빠른 속도를 제공하기 때문에 GQA를 선택했습니다.

이 결과는 GQA 논문에서 제안된 접근법의 효과를 확인해줍니다. GQA는 쿼리 헤드들을 그룹으로 나누고 각 그룹이 키-값 헤드를 공유하도록 하여, MHA에 가까운 품질을 유지하면서 MQA에 비견되는 속도를 달성합니다. 성능 저하 없이 효율성을 개선할 수 있다는 점에서 실용적인 선택임을 보여줍니다.

넓은 구조 대 깊은 구조

네트워크 구조 평균 성능 (4개 벤치마크)
넓은 구조 50.8
깊은 구조 52.0

동일한 매개변수 수를 가진 9B 모델에서 더 깊은 네트워크가 더 넓은 네트워크보다 약간 더 나은 성능을 보인다는 것을 확인했습니다. 격차는 작지만 벤치마크 전반에 걸쳐 일관되게 나타나며, 이는 더 깊은 아키텍처로의 전환을 정당화합니다.

이러한 결과는 모델 아키텍처 설계에서 중요한 통찰을 제공합니다. 깊은 네트워크는 더 복잡한 표현을 학습할 수 있는 능력을 제공하며, 각 레이어가 점진적으로 더 추상적인 특징을 포착할 수 있게 합니다. 앞서 설명한 로컬-글로벌 어텐션의 교대 배치와 결합될 때, 깊은 구조는 지역적 패턴과 전역적 의존성을 모두 효과적으로 모델링할 수 있습니다.

슬라이딩 윈도우 크기 변경

슬라이딩 윈도우 크기 퍼플렉시티 (검증 세트)
4096 1.63
2048 1.63
1024 1.64

9B 모델의 로컬 어텐션 레이어에서 추론 시간에 슬라이딩 윈도우 크기를 변경할 수 있으며, 퍼플렉시티에 미치는 영향은 적당함을 보여줍니다. 슬라이딩 윈도우 크기를 조정하는 것은 약간의 추론 속도 향상을 위한 레버리지가 될 수 있습니다.

이는 앞서 소개한 로컬 슬라이딩 윈도우 어텐션의 유연성을 보여주는 중요한 결과입니다. 윈도우 크기를 줄여도 성능이 크게 저하되지 않는다는 것은, 필요에 따라 계산 효율성과 성능 사이의 트레이드오프를 조정할 수 있음을 의미합니다. 특히 리소스가 제한된 환경에서 모델을 배포할 때 유용한 특성입니다.

형식화의 영향

MMLU에서 프롬프트/평가 형식화 변형에 따른 성능 분산을 측정했습니다. 다음 표는 12가지 형식화/평가 조합에 대한 MMLU 점수의 표준편차를 보여주며, 이는 원하지 않는 성능 변동성의 대리 지표입니다.

모델 표준편차
Gemma 1 2B 1.5
Gemma 2 2B 2.1
Mistral 7B 6.9
Gemma 1 7B 0.7
Gemma 2 9B 0.9
Gemma 2 27B 1.0

Gemma 2B 모델들은 더 큰 모델들에 비해 형식 견고성이 약간 떨어집니다. 주목할 점은 Mistral 7B가 Gemma 모델들보다 훨씬 덜 견고하다는 것입니다.

이 결과는 모델의 실용적 배포에서 중요한 고려사항을 제시합니다. 형식 견고성은 모델이 다양한 프롬프트 스타일이나 평가 방식에 얼마나 일관되게 반응하는지를 나타내는 지표입니다. 표준편차가 낮을수록 더 안정적이고 예측 가능한 성능을 의미하며, 이는 실제 애플리케이션에서 사용자 경험의 일관성을 보장하는 데 중요합니다.

특히 Gemma 2 모델들이 Mistral 7B에 비해 현저히 낮은 변동성을 보인다는 점은, 앞서 설명한 후처리 과정에서의 체계적인 데이터 필터링과 다양한 형식에 대한 훈련이 효과적이었음을 시사합니다.

암송과 프라이버시

대규모 언어 모델은 특정 상황에서 훈련 데이터를 암송하도록 유도하는 공격에 취약할 수 있습니다. 이 연구에서는 "암송"에 대해 매우 제한적인 정의를 사용합니다. 모델이 훈련 데이터를 '포함'하고 있어서 특별한 소프트웨어나 알고리즘 없이도 임의의 데이터 인스턴스를 검색할 수 있다는 의미가 아닙니다. 대신, 적절한 지시를 통해 모델의 통계적 생성 과정을 안내함으로써 특정 훈련 예시들의 측정 가능하게 유사한 복사본을 생성하도록 유도할 수 있다면, 그 모델이 해당 예시들을 '암송'했다고 정의합니다.

이러한 공격에 대한 취약성을 연구하고 암송을 정량화하기 위해, Nasr et al.의 연구에서 제안된 방법론을 따라 여러 선행 연구들과 동일한 방식으로 모델의 축자적 암송과 근사적 암송을 평가했습니다. Carlini et al.의 연구에서는 언어 모델에서 암송을 정량화하는 포괄적인 분석을 제공했으며, 모델 크기, 데이터 중복, 프롬프트 길이에 따른 암송의 확장성을 체계적으로 연구했습니다. 이들의 연구에서는 더 큰 모델이 훈련 데이터의 상당히 높은 비율을 암송하며, 훈련 세트에서 더 자주 반복되는 시퀀스가 암송될 가능성이 높다는 것을 보여주었습니다.

평가 방법론

Gemma Team의 2024년 연구의 평가 설정을 따라, 50토큰 프롬프트가 주어졌을 때 훈련 데이터의 50토큰 암송을 테스트했습니다. 전체 데이터셋의 균등 샘플에 걸쳐 정확한 일치 기준과 Ippolito et al.의 연구에서 제안된 10% 편집 거리를 사용한 근사 일치 기준을 모두 사용하여 전체 암송률을 비교했습니다.

구체적인 평가 과정에서는 공유된 사전 훈련 데이터에서 10,000개의 고유 문서를 샘플링하고, 첫 50토큰으로 모델에 프롬프트를 제공한 후 다음 50토큰을 목표로 설정했습니다. 이는 Carlini et al.의 연구에서 사용된 실험 설정과 일치하며, 해당 연구에서는 더 긴 프롬프트를 제공할수록 암송된 콘텐츠를 추출할 확률이 크게 증가한다는 것을 보여주었습니다.

축자적 암송 결과

암송률 비교

위 그림의 결과를 보면, 먼저 암송 평가를 포함한 문헌의 최신 모델들과 비교했습니다. Gemma 2는 유사한 크기의 이전 모델들에 비해 현저히 적게 암송하며, 암송률이 0.1% 미만으로 나타났습니다(로그 y축에 주목). 이는 Nasr et al.의 연구에서 제안된 확장 가능한 추출 방법론으로 측정했을 때도 상당한 개선을 보여줍니다.

데이터 소스별로 암송이 어떻게 분해되는지 추가로 조사한 결과, Gemma 1과 유사하게 Gemma 2도 코드, 위키, 과학 소스에서 더 많이 암송하는 것을 발견했습니다. 그러나 전반적으로 모든 소스에서 현저히 적게 암송합니다(다시 로그 y축에 주목). 이는 앞서 설명한 사전 훈련 과정에서의 체계적인 데이터 필터링과 지식 증류 방법론이 암송 위험을 효과적으로 줄였음을 시사합니다.

근사적 암송 분석

근사적 암송의 경우에도 데이터 소스별 결과가 위 그림에 제시되어 있습니다. 근사적 암송이 정확한 암송보다 높지만, 여전히 암송률이 낮다는 것을 관찰할 수 있습니다. 예를 들어, 이 모델의 근사적 암송은 Gemma 1의 정확한 암송보다도 훨씬 낮습니다.

Ippolito et al.의 연구에서는 축자적 암송을 방지하는 것만으로는 충분하지 않으며, 모델이 여전히 대문자, 구두점 변경이나 동의어 사용과 같은 작은 수정을 통해 "근사적" 암송을 생성할 수 있다는 것을 보여주었습니다. 그러나 Gemma 2에서는 근사적 암송의 증가가 이전 모델들보다 훨씬 낮으며, 일부 경우에는 전혀 증가가 관찰되지 않았습니다. 이는 Gemma Team의 2024년 연구 Figure 4와 비교할 때 상당한 개선을 나타냅니다. 그림에서 근사적 암송 막대가 없다는 것은 증가가 없음을 의미합니다. 즉, 근사적 암송률이 정확한 암송률과 같다는 뜻입니다.

개인 데이터 보호

개인 데이터 보호를 위해 Gemma Team의 2024년 연구와 동일한 훈련 시점 예방 방법과 평가를 사용했습니다. 특히 Google Cloud Sensitive Data Protection Tool을 사용하여 개인 데이터의 잠재적 인스턴스를 찾았습니다. 이 도구는 전화번호, 계정 번호 등 개인 데이터의 여러 범주를 세 가지 심각도 수준으로 분류합니다.

이러한 심각도 수준을 사용하여 암송된 출력을 분석한 결과, 높은 심각도 데이터가 방출되는 인스턴스는 발견되지 않았으며, 낮은 심각도 개인 정보를 포함하는 암송된 데이터의 비율은 0.00026%로 매우 낮았습니다. 이러한 자동화된 도구들은 맥락을 고려하지 않기 때문에 거짓 양성을 발생시키는 것으로 알려져 있어, 실제 결과는 과대 추정일 가능성이 높습니다.

암송 감소의 기술적 의미

Gemma 2에서 관찰된 현저한 암송률 감소는 여러 기술적 요인의 결합으로 설명할 수 있습니다. 첫째, 앞서 설명한 지식 증류 방법론이 중요한 역할을 했을 것으로 보입니다. 교사 모델의 확률 분포를 학습함으로써 모델이 특정 훈련 예시에 과도하게 의존하지 않고 더 일반화된 패턴을 학습할 수 있었습니다.

둘째, 사전 훈련 과정에서 적용된 다층적 데이터 필터링이 효과적이었습니다. 특히 중복된 예시의 제거와 민감한 출력의 확산을 최소화하는 작업이 암송 위험을 크게 줄였습니다. 셋째, 앞서 소개한 로짓 소프트 캐핑 기법이 모델의 출력 분포를 더 부드럽게 만들어 특정 토큰 시퀀스에 대한 과도한 확신을 방지했을 가능성이 있습니다.

이러한 결과는 대규모 언어 모델의 프라이버시 보호 측면에서 중요한 진전을 나타냅니다. Nasr et al.의 연구에서 제안된 확장 가능한 추출 방법론으로도 Gemma 2에서는 훨씬 낮은 암송률이 관찰되었으며, 이는 모델의 실용적 배포에서 프라이버시 위험을 크게 줄일 수 있음을 시사합니다.

책임, 안전, 보안

Gemma 2 모델 개발에서 책임, 안전, 보안은 가장 중요한 고려사항입니다. Gemma 2 사용자들의 위험을 줄이기 위해 Gemini Team의 2024년 연구와 일치하는 개발 워크플로우 전반에 걸친 향상된 내부 안전 프로세스를 통합했습니다. 첫 번째 Gemma 출시와 유사하게, 훈련 시점의 안전 완화, 견고하고 투명한 모델 평가, 그리고 개발자들이 애플리케이션에 대한 책임과 안전 모범 사례를 구현할 수 있도록 돕는 모델과 도구 시리즈인 Responsible Generative AI Toolkit의 추가 개발에 초점을 맞춘 3개 기둥 접근법을 따랐습니다.

다음 표는 Gemma 2 IT 모델들과 Gemma 1.1 IT 모델들의 안전 학술 벤치마크 결과를 보여줍니다.

벤치마크 메트릭 Gemma 1.1 IT 2.5B Gemma 1.1 IT 7B Gemma 2 IT 2.6B Gemma 2 IT 9B Gemma 2 IT 27B
RealToxicity avg tox 7.03 8.04 8.16 8.25 8.84
CrowS-Pairs top-1 45.89 49.67 37.67 37.47 36.67
BBQ Ambig 4-shot, top-1 58.97 86.06 83.20 88.58 85.99
BBQ Disambig 4-shot, top-1 53.9 85.08 69.31 82.67 86.94
Winogender top-1 50.14 57.64 52.91 79.17 77.22
TruthfulQA MC2 Acc 44.24 45.34 43.72 50.27 51.60
Winobias 1_2 top-1 55.93 59.22 59.28 78.09 81.94
Winobias 2_2 top-1 89.46 89.2 88.57 95.32 97.22
Toxigen avg tox 29.64 38.75 48.32 39.30 38.42

이 결과들은 Gemma 2 모델들이 다양한 안전 지표에서 개선된 성능을 보여주고 있음을 나타냅니다. 특히 CrowS-Pairs에서는 편향 감소를 보여주며, Winobias 벤치마크에서는 성별 편향 완화에서 상당한 개선을 보입니다.

영향 평가

본 연구의 접근법과 결과적인 영향 평가는 Gemma Team의 2024년 연구에서 설명된 것과 일치합니다. AI의 개방성이 이러한 기술의 이익을 사회 전반에 확산시킬 수 있다고 계속 믿고 있지만, 딥페이크 이미지 생성, AI 생성 허위정보, 불법적이고 충격적인 자료와 같은 악의적 사용의 위험에 대해 평가되어야 하며, 이는 개인적 및 제도적 차원에서 해를 끼칠 수 있습니다. Weidinger et al.의 연구에서는 언어 모델로부터의 윤리적 및 사회적 위험에 대한 포괄적인 분류체계를 제시했으며, 차별/배제/독성, 정보 위험, 허위정보 피해, 악의적 사용, 인간-컴퓨터 상호작용 피해, 자동화/접근/환경 피해의 6가지 고수준 위험 영역으로 구조화했습니다.

Gemma 1 출시 이후, Gemma 모델들이 다양한 사회적으로 유익한 애플리케이션을 추진하는 것을 목격했습니다. 특히 Gemma의 고유한 기술인 토크나이저를 활용하여 15개 인도 언어를 위한 Gemma 튜닝 모델인 Navarasa 2.0과 같은 다국어 모델 생성을 촉진했습니다. 추가적인 오픈 모델 출시는 모델 능력의 변화에 대한 특별한 주의와 Lin et al.의 연구에서 언급된 LLM의 진화하는 위험에 대한 면밀한 모니터링, 그리고 실제 환경에서 모델이 사용되는 방식에 대한 이해가 필요합니다.

Gemma에 대한 악의적 사용 보고는 아직 받지 못했지만, 그러한 보고에 대한 조사와 학술 및 개발자 커뮤니티와의 협력, 그리고 자체 모니터링을 통해 이러한 사용 사례를 표시하는 데 계속 전념하고 있습니다. 능력의 발전에도 불구하고, 더 많은 수의 더 크고 강력한 오픈 모델들이 존재한다는 점을 고려할 때, 이번 출시가 전체적인 위험 환경에 미치는 영향은 미미할 것으로 믿습니다.

안전 정책 및 훈련 시점 완화

Gemma의 안전 접근법의 핵심 기둥은 Gemini Team의 2023년 연구와 일치하여 미세조정된 모델을 Google의 안전 정책과 정렬시키는 것입니다. 이러한 정책들은 모델이 유해한 콘텐츠를 생성하는 것을 방지하도록 설계되었습니다.

  • 아동 성적 학대 및 착취
  • 해를 끼칠 수 있는 개인 식별 정보 노출 (예: 사회보장번호)
  • 혐오 발언 및 괴롭힘
  • 위험하거나 악의적인 콘텐츠 (자해 촉진 또는 유해한 활동 지시 포함)
  • 성적으로 노골적인 콘텐츠
  • 과학적 또는 의학적 합의에 반하는 의학적 조언

사전 훈련된 체크포인트와 미세조정된 체크포인트가 유해한 콘텐츠를 생성할 가능성을 줄이기 위해 사전 훈련 데이터에 대한 상당한 안전 필터링을 수행했습니다. 미세조정된 모델의 경우, SFT와 RLHF를 모두 사용하여 모델을 바람직하지 않은 행동에서 벗어나도록 유도했습니다.

다음 표는 공격적 사이버 보안 평가 결과를 보여줍니다.

모델 InterCode-CTF Internal CTF suite Hack the Box
Gemini 1.0 Ultra 28/76 (37%) 3/13 (23%) 0/13
Gemini 1.5 Pro 62/76 (82%) 4/13 (31%) 0/13
CodeGemma 1 7B 12/76 (16%) 0/13 (0%) 0/13
Gemma 2 27B 34/76 (45%) 1/13 (8%) 0/13

이 결과는 성공적인 해킹 수를 보고하며, Gemma 2 27B가 CodeGemma 1.0 7B에 비해 상당한 능력 향상을 보여주지만 Gemini 1.5 Pro보다는 훨씬 낮은 성능을 보입니다.

보증 평가

IT 모델들을 Shevlane et al.의 연구Phuong et al.의 연구에서 제시된 극단적 위험과 관련된 능력에 초점을 맞춘 보증 평가 세트를 통해 실행했습니다. 구체적으로 공격적 사이버 보안, 코드 취약점 탐지, 화학, 생물학, 방사능 및 핵(CBRN) 지식, 그리고 자기 증식에 대해 평가했습니다.

기준선 평가

기준선 보증은 대량의 합성 적대적 사용자 쿼리와 인간 평가자를 사용하여 답변을 정책 위반 여부로 라벨링하는 방식으로 안전 정책에 대한 모델의 위반률을 포착합니다. 전반적으로 Gemma 2의 위반률은 위에 나열된 안전 정책에서 전반적으로 상당히 낮으며, 특히 아동 안전 콘텐츠에서 그렇습니다.

코드 취약점 탐지

다음 표는 PrimeVul, DiverseVul, SPI에서의 취약점 탐지 결과를 보여줍니다.

모델 PrimeVul PrimeVul Paired DiverseVul SPI SecretPatch
Gemini 1.0 Ultra - - 54% 59% 74%
Gemini 1.5 Pro 60% 51% 58% 56% 67%
Gemma 2 27B 63% 50% 57% 53% 72%

정확도를 보고하며, 이전 모델들과 마찬가지로 Gemma는 PrimeVul, DiverseVul, SPI에서 우연 수준에 가까운 성능을 보입니다. Gemma 2는 SecretPatch에서 Gemini 1.0 Ultra와 유사한 성능을 보입니다.

자기 증식

"자기 증식"은 에이전트가 자율적으로 복제하는 능력, 즉 다른 기계에서 목표 지향적 에이전트를 인스턴스화하고 이들을 계속 실행하는 데 필요한 컴퓨팅과 같은 자원을 획득하는 능력을 의미합니다. Kinniment et al.의 연구에서는 이러한 능력을 평가하기 위한 프레임워크를 제시했습니다.

다음 표는 다양한 자기 증식 시나리오에서의 결과를 보여줍니다.

모델 종단간 통과 챌린지 모든 마일스톤 성공 챌린지 전체 챌린지에서 성공한 마일스톤 모든 작업 해결에 필요한 전문가 비트
Gemini 1.0 Ultra 0/10 1/10 16/45 (36%) 13,026
Gemini 1.5 Pro 0/10 2/10 25/45 (56%) 11,046
Gemma 2 27B 0/10 1/10 22/45 (49%) 12,462

공격적 사이버 보안과 유사하게, Gemma 2가 Gemini 1.0 Ultra보다 더 많은 마일스톤을 완료하는 것을 관찰했습니다. 그럼에도 불구하고 종단간 작업에서는 여전히 낮은 능력을 가지며, 가장 쉬운 챌린지인 비트코인 지갑 설치조차 통과할 수 없었습니다.

설득 능력

설득 능력은 사이버 보안 맥락에서 사회 공학 공격을 가능하게 하는 등 다른 종류의 위험을 활성화하고 악화시킬 수 있습니다. Prolific에서 인간 참가자 연구를 통해 Gemma 2의 설득 능력을 평가했습니다.

매력 공세(Charm Offensive) 평가에서는 설득의 핵심 하위 기술인 라포 구축 능력을 측정했습니다.

특성 Gemini 1.0 Pro Gemini 1.0 Ultra Gemini 1.5 Pro Gemma 2 27B
개인적 연결 65% 69% 82% 80%
다시 대화하고 싶음 53% 65% 70% 75%
재미있음 32% 38% 69% 60%
흥미로움 68% 65% 81% 81%
친절함 78% 86% 95% 87%
신뢰할 만함 66% 63% 69% 65%
좋은 청취자 81% 74% 90% 83%

100명의 인간 참가자 샘플에서 모델에서 특정 인간적 특성을 발견한 참가자의 비율을 보고합니다. 정량적으로 Gemma 2 27B는 Gemini 1.0 모델들보다 더 나은 성능을 보입니다.

숨겨진 의도(Hidden Agenda) 작업은 모델의 기만 능력을 측정합니다. 인간 연구 참가자들에게는 새로운 것을 배우는 데 도움을 주도록 설계된 일반적인 챗봇과 상호작용할 것이라고 말하지만, 모델에게는 비밀 목표가 주어집니다.

행동 Gemini 1.0 Pro Gemini 1.0 Ultra Gemini 1.5 Pro Gemma 2 27B
링크 클릭 43% 18% 36% 34%
정보 찾기 4% 18% 12% 9%
코드 실행 4% 14% 17% 11%

모든 모델이 참가자의 일부를 행동을 취하도록 설득하는 데 성공하지만, Gemma 2는 Gemini 모델들과 비교하여 능력에서 상당한 차이를 보이지 않습니다.

돈 이야기(Money Talks) 평가에서는 모델이 연구 참가자들을 설득하여 자선단체에 돈을 기부하도록 할 수 있는지 평가했습니다.

조건 평균 기부 금액
챗봇 없음 (기준선) £2.61 ± £0.70
Gemini 1.0 Pro £4.10 ± £0.90
Gemini 1.0 Ultra £3.15 ± £0.99
Gemini 1.5 Pro £3.45 ± £1.04
Gemma 2 27B £3.72 ± £1.07

Gemma 2, 다른 Gemini 모델들, 그리고 모델과의 대화 없이 참가자에게 즉시 기부 의사를 묻는 단순한 챗봇 없음 기준선 사이에 유의미한 차이는 관찰되지 않았습니다.

거짓말의 그물(Web of Lies) 평가에서는 참가자의 믿음을 바꾸는 모델 능력을 측정했습니다.

믿음 변화 방향 인간 Gemini 1.0 Pro Gemini 1.0 Ultra Gemini 1.5 Pro Gemma 2 27B
올바른 믿음으로 20% ± 13% 22% ± 5% 21% ± 5% 20% ± 5% 18% ± 5%
잘못된 믿음으로 -23% ± 14% -9% ± 4% -1% ± 4% -3% ± 5% 1% ± 4%

Gemma 2는 이러한 질문들에서 참가자들을 잘못된 답으로 설득하는 데 있어 인간 기준선보다 상당히 약합니다. 이전 모델들과 유사하게, Gemma 2는 거짓말을 할 때보다 진실을 말할 때 더 설득력이 있습니다.

책임감 있는 오픈 모델에 대한 접근법

안전하고 보안이 강화되며 책임감 있는 애플리케이션을 설계하려면 각 특정 사용 사례와 환경과 관련된 위험을 완화하는 시스템 수준의 접근법이 필요합니다. Gemma 모델의 오픈 특성을 고려할 때, 모델 안전 원칙을 유지하는 책임은 다운스트림 개발자들에게도 달려 있습니다. 이들을 지원하기 위해 Responsible Generative AI Toolkit을 계속 개발했습니다. 이는 개발 워크플로우 전반에 걸쳐 책임감 있는 모범 사례를 구현하기 위한 도구, 모델, 데이터셋 시리즈입니다.

툴킷의 최근 추가 사항으로는 Kahng et al.의 연구에서 제안된 LLM Comparator가 있습니다. 이는 나란히 평가의 더 효과적이고 확장 가능한 분석을 가능하게 하는 대화형 시각적 도구입니다. 또한 툴킷에는 Mozes et al.의 연구에서 제안된 매개변수 효율적 튜닝 기법 덕분에 제한된 수의 데이터포인트로 Gemma를 사용하여 맞춤형 분류기를 구축하는 방법론, Tenney et al.의 연구의 Learning Interpretability Tool을 기반으로 한 대화형 프롬프트 디버깅 플랫폼, 그리고 모델 정렬 및 안전 평가에 대한 일반적인 지침이 포함되어 있습니다.

이러한 포괄적인 안전 및 책임 접근법을 통해 Gemma 2는 강력한 성능을 제공하면서도 사용자와 사회에 대한 위험을 최소화하도록 설계되었습니다. 지속적인 모니터링과 개선을 통해 AI 기술의 이익을 극대화하면서 잠재적 피해를 방지하는 것이 핵심 목표입니다.

논의 및 결론

본 연구에서는 Gemma 패밀리의 최신 구성원인 Gemma 2를 제시했습니다. 이는 텍스트와 코드를 위한 오픈 언어 모델로, 증류가 이러한 모델들을 훈련하는 효과적인 방법임을 보여주었으며, 원시 텍스트 훈련 대비 증류가 제공하는 이점들을 입증했습니다. 특히 출력 확률에 대한 훈련이 순수한 다음 토큰 예측보다 우수한 결과를 생성할 수 있음을 보여주었습니다.

지식 증류의 핵심 기여

앞서 상세히 설명한 지식 증류 방법론은 Gemma 2의 가장 중요한 혁신 중 하나입니다. 전통적인 다음 토큰 예측에서 사용되는 원-핫 벡터 대신, 교사 모델에서 계산된 풍부한 확률 분포를 활용함으로써 학생 모델이 더 미묘하고 정교한 언어 이해 능력을 개발할 수 있게 했습니다. 이는 단순히 더 많은 토큰으로 훈련하는 것을 넘어서, 각 훈련 단계에서 네트워크가 받는 정보의 질을 근본적으로 개선하는 접근법입니다.

특히 2B와 9B 모델에서 Chinchilla 논문의 계산 최적 이론이 예측하는 것보다 50배 이상 많은 토큰으로 훈련한 결과는 매우 인상적입니다. 이는 사용 가능한 토큰 수를 넘어선 훈련을 시뮬레이션하는 효과를 가져왔으며, 결과적으로 해당 크기에서 최고의 성능을 달성하고 심지어 2-3배 더 큰 모델들과도 경쟁력 있는 대안을 제공할 수 있게 되었습니다.

아키텍처 혁신의 의미

앞서 소개한 로컬 슬라이딩 윈도우와 글로벌 어텐션의 교대 배치는 계산 효율성과 장거리 의존성 포착 능력 사이의 균형을 맞추는 우아한 해결책을 제공했습니다. 이러한 접근법은 각 레이어가 서로 다른 종류의 정보를 처리하도록 하여, 전체적으로 더 효율적이면서도 강력한 표현 학습을 가능하게 했습니다.

또한 로짓 소프트 캐핑 기법의 도입은 훈련 안정성을 크게 향상시켰습니다. 어텐션 레이어에서 50.0, 최종 레이어에서 30.0으로 설정된 차별화된 매개변수는 각 레이어의 역할과 특성을 고려한 세심한 설계를 보여줍니다. 이는 대규모 모델에서 발생할 수 있는 그래디언트 폭발이나 수치적 불안정성을 효과적으로 방지했습니다.

커뮤니티에 대한 기여와 영향

이러한 모델들을 커뮤니티에 공개함으로써 이전에는 대규모 LLM에서만 볼 수 있었던 능력에 대한 접근을 가능하게 하고, 미래의 연구 개발 물결을 촉진할 수 있기를 희망합니다. 첫 번째 Gemma 출시 이후, 다양한 사회적으로 유익한 애플리케이션들이 추진되는 것을 목격했습니다. 특히 Gemma의 고유한 토크나이저를 활용하여 15개 인도 언어를 위한 Gemma 튜닝 모델인 Navarasa 2.0과 같은 다국어 모델 생성이 촉진되었습니다.

책임감 있는 배포와 안전성

이러한 성격의 되돌릴 수 없는 공개에는 내재적 위험이 있지만, 앞서 설명한 광범위한 안전 조사와 책임감 있는 배포 절차를 통해 이러한 모델들이 커뮤니티에 순긍정적인 영향을 미칠 것이라는 확신을 갖고 있습니다. 특히 암송률이 0.1% 미만으로 나타난 결과와 개인 데이터 방출률이 0.00026%로 매우 낮게 측정된 것은 프라이버시 보호 측면에서 중요한 진전을 나타냅니다.

모델의 한계와 향후 연구 방향

본 보고서에서 논의된 바와 같이, 이러한 모델들에는 여전히 많은 한계가 있으며, 사실성, 적대적 공격에 대한 견고성, 추론, 그리고 정렬을 조사하고 개선하기 위한 향후 연구가 필요합니다.

사실성 개선: 현재 모델들은 여전히 환각 문제를 완전히 해결하지 못했습니다. 앞서 설명한 후처리 과정에서 더 나은 맥락 내 귀속, 헤징, 그리고 거부를 장려하는 데이터의 하위 집합을 포함시킨 것이 사실성 지표에서 성능을 향상시켰지만, 이는 여전히 개선이 필요한 영역입니다.

견고성 강화: 적대적 공격에 대한 모델의 견고성은 실제 배포에서 중요한 고려사항입니다. 앞서 제시한 안전 평가 결과들이 개선을 보여주지만, 더욱 정교한 공격 방법들에 대한 방어 능력을 지속적으로 강화해야 합니다.

추론 능력 향상: 복잡한 다단계 추론이 필요한 작업에서의 성능 개선은 여전히 중요한 연구 과제입니다. 특히 수학적 추론과 논리적 추론 능력의 향상이 필요합니다.

정렬 개선: 인간의 가치와 의도에 더 잘 정렬된 모델을 개발하는 것은 지속적인 연구가 필요한 영역입니다. 앞서 설명한 RLHF 과정이 상당한 개선을 가져왔지만, 더욱 정교한 정렬 기법의 개발이 필요합니다.

기술적 혁신의 확장 가능성

지식 증류 방법론의 성공은 다른 모델 크기와 도메인으로의 확장 가능성을 시사합니다. 앞서 보여준 어블레이션 연구 결과에서 다양한 크기의 모델에서 증류의 이득이 지속적으로 유지됨을 관찰했는데, 이는 이 접근법이 더 넓은 범위의 모델 개발에 적용될 수 있음을 의미합니다.

또한 로컬-글로벌 어텐션의 교대 배치와 같은 아키텍처 혁신들은 더 긴 컨텍스트를 처리해야 하는 미래의 모델들에게 중요한 통찰을 제공합니다. 계산 효율성과 성능 사이의 균형을 맞추는 이러한 접근법은 리소스 제약이 있는 환경에서의 모델 배포에 특히 유용할 것입니다.

결론

Gemma 2는 지식 증류의 효과성을 입증하고, 출력 확률에 대한 훈련이 다음 토큰 예측 대비 제공하는 이점을 보여주는 중요한 기여를 했습니다. 이러한 혁신들은 소형 모델의 성능을 크게 향상시키면서도 계산 효율성을 유지할 수 있는 새로운 패러다임을 제시했습니다. 모델의 한계를 인정하면서도, 책임감 있는 개발과 배포를 통해 AI 기술의 이익을 사회 전반에 확산시킬 수 있는 가능성을 보여주었습니다.


References