TL;DR

이 연구를 시작하게 된 배경과 동기는 무엇입니까?

대규모 언어 모델의 발전은 인공지능 분야에서 혁명적인 변화를 가져왔지만, 여전히 단일 모달리티에 국한된 한계가 존재했습니다. 기존 모델들은 주로 텍스트 처리에 집중되어 있어, 이미지, 오디오, 비디오와 같은 다양한 데이터 형식을 종합적으로 이해하고 추론하는 능력이 제한적이었습니다. Google 연구팀은 이러한 한계를 극복하고, 인간의 다감각적 인지 방식과 유사하게 여러 모달리티를 동시에 처리할 수 있는 멀티모달 AI 모델의 필요성을 인식했습니다.

Gemini 프로젝트의 근본적인 동기는 더욱 일반화된 인공지능 시스템을 개발하는 것이었습니다. 연구팀은 텍스트뿐만 아니라 이미지, 오디오, 비디오를 동시에 이해하고 추론할 수 있는 모델을 통해 AI의 실제 활용 가능성을 크게 확장할 수 있다고 믿었습니다. 특히 교육, 과학 연구, 문제 해결 등 다양한 분야에서 멀티모달 AI의 잠재력을 탐구하고자 했습니다.

이 연구에서 제시하는 새로운 해결 방법은 무엇입니까?

Gemini 모델의 핵심 혁신은 처음부터 멀티모달 학습을 고려한 통합적인 모델 아키텍처입니다. 기존 접근법과 달리, Gemini는 텍스트, 이미지, 오디오, 비디오 데이터를 별도로 처리하지 않고 공동으로 훈련시켜 모달리티 간 깊은 상호작용과 추론을 가능하게 했습니다. 트랜스포머 디코더 기반 아키텍처에 멀티-쿼리 어텐션 메커니즘을 도입하여 계산 효율성을 높이고, 32,000 토큰의 긴 컨텍스트 길이를 지원함으로써 복잡한 멀티모달 작업을 수행할 수 있게 설계되었습니다.

Ultra, Pro, Nano의 세 가지 크기로 모델을 개발하여 다양한 계산 요구사항과 응용 프로그램에 대응했다는 점도 중요한 혁신입니다. 특히 Nano 모델은 온디바이스 실행을 위해 최적화되어, AI 기술의 접근성을 크게 향상시켰습니다. 또한 사후 훈련 과정에서 지도 학습 미세 조정, 보상 모델링, 인간 피드백을 통한 강화 학습(RLHF) 등 다양한 기술을 적용하여 모델의 성능과 안전성을 지속적으로 개선했습니다.

제안된 방법은 어떻게 구현되었습니까?

Gemini 모델의 구현은 대규모 TPU(Tensor Processing Unit) 인프라와 혁신적인 분산 훈련 접근법을 기반으로 했습니다. Google의 JAX와 Pathways 프레임워크를 활용하여 단일 Python 프로세스로 전체 훈련 과정을 조율했으며, 대규모 가속기 집합에 걸쳐 효율적인 모델 병렬성과 데이터 병렬성을 구현했습니다. 특히 하드웨어 고장에 대비한 중복 인메모리 모델 상태와 동적 토폴로지 재구성 기술을 도입하여 훈련의 안정성을 크게 향상시켰습니다.

데이터 측면에서는 웹 문서, 책, 코드, 이미지, 오디오, 비디오를 포함하는 광범위하고 다양한 멀티모달 데이터셋을 사용했습니다. SentencePiece 토크나이저를 통해 다국어 데이터 처리 능력을 강화했으며, 데이터 품질 관리를 위해 엄격한 필터링과 큐레이션 과정을 거쳤습니다. 또한 데이터 오염을 방지하기 위해 평가 데이터셋을 사전에 제거하는 등 엄격한 데이터 관리 프로토콜을 적용했습니다.

이 연구의 결과가 가지는 의미는 무엇입니까?

Gemini 모델은 AI 분야에서 중요한 이정표를 마련했습니다. 32개의 벤치마크 중 30개에서 최신 기술 수준을 달성했으며, MMLU 벤치마크에서 90% 이상의 점수로 인간 전문가 수준의 성능을 보였습니다. 특히 멀티모달 추론 능력은 교육, 과학 연구, 문제 해결 등 다양한 분야에서 혁신적인 응용 가능성을 열어주었습니다.

이 연구는 단순한 기술적 성과를 넘어 AI의 미래에 대한 중요한 통찰을 제공합니다. 다양한 모달리티를 통합적으로 이해하고 추론할 수 있는 AI 시스템의 가능성을 보여주었으며, 앞으로 더욱 일반화되고 유연한 인공지능 개발의 방향을 제시했습니다. 동시에 모델의 한계와 잠재적 위험성에 대한 지속적인 연구의 중요성도 강조했습니다.

Gemini: 고성능 멀티모달 모델 계열

서론

이 보고서는 이미지, 오디오, 비디오 및 텍스트 이해에 걸쳐 놀라운 능력을 보여주는 새로운 멀티모달 모델 계열인 Gemini를 소개합니다. Gemini 모델 계열은 복잡한 추론 작업부터 온디바이스 메모리 제약 사용 사례까지 다양한 응용 프로그램에 적합한 Ultra, Pro 및 Nano 크기로 구성됩니다. 광범위한 벤치마크에 대한 평가 결과, 가장 뛰어난 성능을 보이는 Gemini Ultra 모델은 이러한 벤치마크 중 32개 중 30개에서 최신 기술 수준을 향상시켰습니다. 특히 널리 연구된 시험 벤치마크인 MMLU에서 인간 전문가 수준의 성능을 달성한 최초의 모델이며, 검토한 20개의 모든 멀티모달 벤치마크에서 최신 기술 수준을 향상시켰습니다. Gemini 모델 계열의 교차 모달 추론 및 언어 이해에 있어서 새로운 능력이 다양한 사용 사례를 가능하게 할 것으로 기대됩니다. 이 보고서에서는 Gemini, Gemini Advanced, Google AI Studio 및 Cloud Vertex AI를 포함한 서비스를 통해 Gemini 모델을 사후 훈련하고 사용자에게 책임감 있게 배포하는 접근 방식에 대해 논의합니다.

연구 배경

Google에서 개발된 Gemini는 모달리티 전반에 걸쳐 강력한 일반적인 능력과 함께 각 영역에서의 뛰어난 이해력과 추론 성능을 갖춘 모델을 구축하기 위해 이미지, 오디오, 비디오 및 텍스트 데이터에 걸쳐 공동으로 훈련된 고성능 멀티모달 모델 계열입니다. Gemini 1.0의 첫 번째 버전은 매우 복잡한 작업을 위한 Ultra, 규모에 맞는 향상된 성능과 배포 가능성을 위한 Pro, 그리고 온디바이스 애플리케이션을 위한 Nano의 세 가지 크기로 제공됩니다. 각 크기는 서로 다른 계산 제약과 애플리케이션 요구 사항을 해결하기 위해 특별히 조정되었습니다.

대규모 사전 훈련 후, 전반적인 품질을 향상시키고, 목표 기능을 강화하며, 정렬 및 안전 기준이 충족되도록 모델을 사후 훈련합니다. 다운스트림 애플리케이션의 다양한 요구 사항으로 인해 두 가지 사후 훈련된 Gemini 모델 계열 변형이 제작되었습니다. 채팅 중심 변형인 Gemini Apps 모델은 이전에 Bard로 알려진 대화형 AI 서비스인 Gemini와 Gemini Advanced를 위해 최적화되었습니다. 개발자 중심 변형인 Gemini API 모델은 다양한 제품을 위해 최적화되었으며 Google AI Studio 및 Cloud Vertex AI를 통해 접근할 수 있습니다.

이 연구에서는 언어, 코딩, 추론 및 멀티모달 작업을 포함하는 광범위한 내부 및 외부 벤치마크에 대한 사전 및 사후 훈련된 Gemini 모델의 성능을 평가합니다.

기술적 기여

Gemini 모델 계열은 대규모 언어 모델링(Hoffmann 등, 2022; Anil 등, 2023; Brown 등, 2020; Chowdhery 등, 2023; OpenAI, 2023a; Radford 등, 2019; Rae 등, 2021), 이미지 이해(Alayrac 등, 2022; Chen 등, 2022; Dosovitskiy 등, 2020; OpenAI, 2023b; Reed 등, 2022; Yu 등, 2022a), 오디오 처리(Radford 등, 2023; Zhang 등, 2023) 및 비디오 이해(Alayrac 등, 2022; Chen 등, 2023) 분야에서 최신 기술 수준을 발전시켰습니다. 또한 시퀀스 모델(Sutskever 등, 2014), 신경망 기반 딥 러닝(LeCun 등, 2015) 및 대규모 훈련을 가능하게 하는 머신 러닝 분산 시스템(Barham 등, 2022; Bradbury 등, 2018; Dean 등, 2012)에 관한 연구를 기반으로 합니다.

가장 뛰어난 모델인 Gemini Ultra는 보고된 32개의 벤치마크 중 30개에서 새로운 최신 기술 수준의 결과를 달성했습니다. 이는 12개의 인기 있는 텍스트 및 추론 벤치마크 중 10개, 9개의 이미지 이해 벤치마크 전체, 6개의 비디오 이해 벤치마크 전체, 그리고 5개의 음성 인식 및 음성 번역 벤치마크 전체를 포함합니다. Gemini Ultra는 지식과 추론을 테스트하는 시험 모음인 MMLU(Hendrycks 등, 2021a)에서 90% 이상의 점수로 인간 전문가 수준의 성능을 달성한 최초의 모델입니다.

멀티모달 추론 능력

텍스트를 넘어, Gemini Ultra는 도전적인 멀티모달 추론 작업에서 주목할 만한 발전을 이루었습니다. 예를 들어, 대학 수준의 주제 지식과 신중한 추론이 필요한 다학제 작업에 관한 이미지에 대한 질문으로 구성된 최근의 MMMU 벤치마크(Yue 등, 2023)에서 Gemini Ultra는 62.4%의 새로운 최신 기술 수준 점수를 달성하여 이전 최고 모델보다 5% 이상 뛰어난 성능을 보였습니다. 또한 비디오 질의응답 및 오디오 이해 벤치마크에서도 균일한 성능 향상을 제공합니다.

정성적 평가에서는 모델이 오디오, 이미지 및 텍스트의 입력 시퀀스를 원활하게 이해하고 추론할 수 있는 인상적인 교차 모달 추론 능력을 보여줍니다(그림 5 및 표 13 참조).

그림 1에 묘사된 교육 환경을 예로 들어보겠습니다. 교사가 경사면을 내려가는 스키어의 물리 문제를 그렸고, 학생이 그 해결책을 작성했습니다. Gemini 모델의 멀티모달 추론 능력을 사용하여 모델은 지저분한 필기를 이해하고, 문제 공식을 정확하게 이해하며, 문제와 해결책을 모두 수학적 조판으로 변환하고, 학생이 문제 해결에서 잘못된 추론 단계를 식별한 다음, 문제에 대한 정확한 해결책을 제시할 수 있습니다. 이는 흥미로운 교육적 가능성을 열어주며, Gemini 모델의 새로운 멀티모달 및 추론 능력이 많은 분야에서 획기적인 응용 프로그램을 가질 것으로 기대됩니다.

그림 1: 이 이미지는 마찰이 없는 경사면을 내려가는 스키어와 관련된 물리 문제를 보여줍니다. 시각화의 주요 목적은 스키어의 총 에너지가 경사면 전체에서 일정하게 유지되는 에너지 보존을 설명하는 것입니다. 주요 기술적 구성 요소에는 경사면 시작 부분의 위치 에너지, 경사면 끝 부분의 운동 에너지, 그리고 스키어의 속도를 계산하는 데 사용된 방정식이 포함됩니다. 중요한 발견은 에너지 보존 원리를 적용하여 계산된 경사면 하단에서의 스키어 속도가 28.01 m/s라는 것입니다. 연구의 중요성은 마찰이 없는 경사면에서 물체의 움직임을 정확하게 모델링하고 예측하는 능력에 있으며, 이는 스포츠 및 공학과 같은 다양한 분야에서 중요한 응용 프로그램을 가지고 있습니다.

추론 능력과 응용

대형 언어 모델의 추론 능력은 더 복잡한 다단계 문제를 해결할 수 있는 일반적인 에이전트를 구축하는 데 유망한 가능성을 보여줍니다. AlphaCode 팀은 Gemini 모델의 추론 능력과 검색 및 도구 사용을 결합하여 경쟁 프로그래밍 문제 해결에 탁월한 성능을 보이는 새로운 Gemini 모델 기반 에이전트인 AlphaCode 2(Leblond 등, 2023)를 구축했습니다. AlphaCode 2는 Codeforces 경쟁 프로그래밍 플랫폼에서 상위 15% 내에 랭크되어, 상위 50% 내에 있던 이전의 최신 기술 수준 선행 모델(Li 등, 2022)보다 크게 향상되었습니다.

동시에, 온디바이스 배포를 목표로 하는 소형 모델 시리즈인 Gemini Nano를 통해 효율성의 경계를 확장합니다. 이러한 모델은 요약, 독해, 텍스트 완성 작업과 같은 온디바이스 작업에서 뛰어난 성능을 보이며, 크기에 비해 추론, STEM, 코딩, 멀티모달 및 다국어 작업에서 인상적인 능력을 보여줍니다.

논문 구성

다음 섹션에서는 먼저 모델 아키텍처, 훈련 인프라 및 사전 훈련 데이터셋에 대한 개요를 제공합니다. 그런 다음 텍스트, 코드, 이미지, 오디오 및 비디오에 걸친 잘 연구된 벤치마크를 포함하여 사전 및 사후 훈련된 Gemini 모델 계열에 대한 상세한 평가를 제시합니다. 이는 영어 성능과 다국어 능력을 모두 포함합니다. 다음으로 사후 훈련에 대한 접근 방식을 논의하고, Gemini Apps와 Gemini API 모델 변형의 공통점과 차이점을 강조하며, 주요 기능에 대한 성능을 벤치마킹합니다. 책임감 있는 배포가 중요하므로, 배포 결정 전에 영향 평가, 모델 정책 개발, 평가 및 위해 완화를 위한 프로세스를 설명합니다. 마지막으로, Gemini 모델의 더 넓은 의미, 그들의 한계와 잠재적 응용 프로그램에 대해 논의하여 AI 연구와 혁신의 새로운 시대를 위한 길을 열어갑니다.

모델 아키텍처

Gemini 모델은 트랜스포머 디코더(Vaswani 등, 2017)를 기반으로 구축되었으며, 아키텍처 개선과 모델 최적화를 통해 대규모 학습의 안정성을 확보하고 Google의 텐서 프로세싱 유닛(TPU)에서 추론을 최적화했습니다. 이 모델들은 32k 컨텍스트 길이를 지원하도록 학습되었으며, 효율적인 어텐션 메커니즘(예: 멀티-쿼리 어텐션(Shazeer, 2019))을 활용합니다. 첫 번째 버전인 Gemini 1.0은 표 1에서 논의된 바와 같이 다양한 응용 프로그램을 지원하기 위해 세 가지 주요 크기로 구성되어 있습니다.

모델 크기	모델 설명
Ultra	추론 및 멀티모달 작업을 포함한 광범위한 매우 복잡한 작업에서 최첨단 성능을 제공하는 가장 강력한 모델입니다. Gemini 아키텍처 덕분에 TPU 가속기에서 효율적으로 대규모 서비스가 가능합니다.
Pro	비용과 지연 시간 측면에서 성능이 최적화된 모델로, 광범위한 작업에서 뛰어난 성능을 제공합니다. 이 모델은 강력한 추론 성능과 광범위한 멀티모달 기능을 보여줍니다.
Nano	온디바이스 실행을 위해 설계된 가장 효율적인 모델입니다. 각각 저용량 및 고용량 메모리 장치를 대상으로 하는 1.8B(Nano-1)와 3.25B(Nano-2) 파라미터를 가진 두 가지 버전의 Nano를 학습시켰습니다. 이 모델은 더 큰 Gemini 모델에서 증류를 통해 학습되었으며, 배포를 위해 4비트로 양자화되어 동급 최고의 성능을 제공합니다.

Gemini 모델은 자연 이미지, 차트, 스크린샷, PDF 및 비디오와 같은 다양한 오디오 및 시각적 입력이 텍스트와 함께 제공될 수 있도록 학습되었으며, 텍스트와 이미지 출력을 생성할 수 있습니다(그림 2 참조).

그림 2: 이 이미지는 입력 시퀀스(예: 텍스트)를 받아 트랜스포머 모듈을 통해 처리하여 이미지 디코더와 텍스트 디코더를 위한 출력을 생성하는 멀티모달 트랜스포머 모델의 고수준 아키텍처를 보여줍니다. 트랜스포머 모듈은 다양한 모달리티별 인코더(예: 오디오, 이미지)와 공유된 트랜스포머 레이어 세트를 활용하는 것으로 보이며, 이는 서로 다른 입력 모달리티에서 상호 보완적인 정보를 활용할 수 있는 멀티모달 학습 접근 방식을 시사합니다. 전체 아키텍처는 이미지 캡셔닝, 시각적 질문 응답 및 멀티모달 언어 이해와 같은 영역에서 잠재적인 응용 프로그램을 갖춘 시각적 및 텍스트 출력을 공동으로 처리하고 생성할 수 있는 강력한 모델을 시사합니다.

Gemini 모델의 시각적 인코딩은 Flamingo(Alayrac 등, 2022), CoCa(Yu 등, 2022a) 및 PaLI(Chen 등, 2022)에 관한 기초 연구에서 영감을 받았습니다. 중요한 차이점은 모델이 처음부터 멀티모달이며 이산 이미지 토큰(Ramesh 등, 2021; Yu 등, 2022b)을 사용하여 이미지를 기본적으로 출력할 수 있다는 점입니다.

비디오 이해는 비디오를 큰 컨텍스트 창 내에서 프레임 시퀀스로 인코딩하여 수행됩니다. 비디오 프레임이나 이미지는 모델 입력의 일부로 텍스트나 오디오와 자연스럽게 교차될 수 있습니다. 모델은 세밀한 이해가 필요한 작업에 더 많은 계산 리소스를 할당하기 위해 가변적인 입력 해상도를 처리할 수 있습니다.

또한 Gemini 모델은 Universal Speech Model(USM)(Zhang 등, 2023) 기능을 통해 16kHz의 오디오 신호를 직접 수용할 수 있습니다. 이를 통해 오디오가 단순히 텍스트 입력으로 매핑될 때 일반적으로 손실되는 뉘앙스를 포착할 수 있습니다(예: 웹사이트의 오디오 이해 데모 참조).

Gemini 모델 계열을 학습시키기 위해서는 학습 알고리즘, 데이터셋 및 인프라에 혁신이 필요했습니다. Pro 모델의 경우, 인프라와 학습 알고리즘의 내재적 확장성 덕분에 Ultra의 리소스 중 일부만 활용하면서 몇 주 만에 사전 학습을 완료할 수 있었습니다. Nano 시리즈 모델은 증류 및 학습 알고리즘의 추가적인 발전을 활용하여 요약 및 독해와 같은 다양한 작업에 대한 동급 최고의 소형 언어 모델을 생산하며, 이는 차세대 온디바이스 경험을 지원합니다.

Gemini 모델 아키텍처의 핵심 기술적 특징을 더 자세히 살펴보면, 멀티-쿼리 어텐션(Shazeer, 2019)은 특히 중요한 역할을 합니다. 이 메커니즘은 기존 멀티-헤드 어텐션과 달리 키(K)와 값(V) 텐서를 여러 어텐션 “헤드” 간에 공유함으로써 증분 추론 중 메모리 대역폭 요구 사항을 줄입니다. 수학적으로 멀티-쿼리 어텐션은 다음과 같이 표현될 수 있습니다.

\[ Q = \text{einsum}(“bnd,hdk->bhnk”, x, P_q) \
K = \text{einsum}(“bmd,dk->bmk”, M, P_k) \
V = \text{einsum}(“bmd,dv->bmv”, M, P_v) \
\text{logits} = \text{einsum}(“bhnk,bmk->bhnm”, Q, K) \
\text{weights} = \text{softmax}(\text{logits} + \text{mask}) \
O = \text{einsum}(“bhnm,bmv->bhnv”, \text{weights}, V) \
y = \text{einsum}(“bhnv,hdv->bnd”, O, P_o) \]

여기서 \(x\)는 입력, \(M\)은 메모리 텐서, \(P_q\), \(P_k\), \(P_v\), \(P_o\)는 학습된 투영 행렬이며, einsum 표기법은 일반화된 텐서 수축을 나타냅니다. 이 접근 방식의 주요 이점은 증분 설정에서 메모리 대역폭 병목 현상의 주요 원인인 \(K\)와 \(V\) 텐서의 크기를 줄인다는 것입니다.

또한 Gemini 모델의 멀티모달 기능은 PaLI(Chen 등, 2022)와 같은 이전 연구에서 영감을 받았습니다. PaLI는 비전과 언어 구성 요소를 균형 있게 확장하는 접근 방식을 취했으며, 비전 백본(ViT-e)이 총 모델 매개변수의 상당 부분(25%)을 차지합니다. 이는 언어 구성 요소가 지배적인 이전 연구와 대조됩니다. Gemini는 이러한 균형 잡힌 확장 접근 방식을 채택하여 다양한 모달리티에서 강력한 성능을 달성합니다.

Gemini 모델의 오디오 처리 기능은 Universal Speech Model(USM)(Zhang 등, 2023)의 기능을 활용합니다. USM은 BEST-RQ라는 BERT 기반 자기 지도 사전 학습 방법과 랜덤 프로젝션 양자화를 사용하여 300개 이상의 언어로 구성된 대규모 데이터셋에 대한 Conformer 인코더의 사전 학습을 효과적으로 확장합니다. 이 접근 방식은 별도의 양자화 모듈을 학습하는 것과 관련된 복잡성과 불안정성 문제를 피하여 이전 방법보다 더 확장 가능하게 만듭니다.

Gemini 모델의 비디오 이해 기능은 Flamingo(Alayrac 등, 2022)의 접근 방식에서 영감을 받았습니다. Flamingo는 비전 인코더와 대규모 언어 모델(LM)이라는 두 가지 상호 보완적인 사전 학습되고 고정된 구성 요소를 활용합니다. 이러한 구성 요소를 연결하기 위해 새로운 아키텍처 요소가 추가되었습니다.

Perceiver Resampler: 이 모듈은 비전 인코더에서 가변 크기의 시각적 특징을 가져와 고정된 수의 시각적 토큰을 생성합니다. 이를 통해 고정된 LM이 시각적 입력을 효율적으로 처리할 수 있습니다.
Gated Cross-Attention Layers: 이 레이어는 시각적 토큰에 대한 LM의 조건을 지정하기 위해 고정된 LM 블록 사이에 삽입됩니다. 게이팅 메커니즘은 사전 학습된 LM의 재앙적 망각을 방지하여 안정성을 보장합니다.

이러한 기술적 혁신을 통해 Gemini 모델은 텍스트, 이미지, 오디오 및 비디오를 포함한 다양한 모달리티에서 강력한 성능을 발휘할 수 있습니다. 특히 Ultra, Pro 및 Nano 크기의 모델을 통해 다양한 응용 프로그램 요구 사항과 리소스 제약에 맞게 조정할 수 있는 유연성을 제공합니다.

훈련 인프라

Gemini 모델은 크기와 구성에 따라 TPUv5e와 TPUv4(Jouppi 등, 2023)를 사용하여 훈련되었습니다. Gemini Ultra의 훈련은 Google이 소유한 여러 데이터센터에 걸쳐 있는 대규모 TPUv4 가속기 집합을 활용했습니다. 이는 이전 플래그십 모델인 PaLM-2에 비해 규모가 크게 증가했으며, 이로 인해 새로운 인프라 과제가 발생했습니다. 가속기 수를 확장하면 전체 시스템에서 하드웨어 고장 간 평균 시간이 비례적으로 감소합니다. 계획된 재스케줄링과 선점을 최소화했지만, 이러한 대규모에서는 모든 하드웨어 가속기에서 진정한 기계 고장이 흔합니다.

TPUv4 가속기는 각각 전용 광학 스위치에 연결된 4096개의 칩으로 구성된 “SuperPod”로 배포되며, 이 스위치는 약 10초 내에 4x4x4 칩 큐브를 임의의 3D 토러스 토폴로지로 동적으로 재구성할 수 있습니다(Jouppi 등, 2023). Gemini Ultra의 경우, 핫 스탠바이와 롤링 유지보수를 위해 슈퍼포드당 소수의 큐브를 유지하기로 결정했습니다.

TPU 가속기는 주로 고속 칩 간 상호연결을 통해 통신하지만, Gemini Ultra 규모에서는 Google의 인트라 클러스터 및 인터 클러스터 네트워크(Poutievski 등, 2022; Wetherall 등, 2023; yao Hong 등, 2018)를 사용하여 여러 데이터센터에 있는 SuperPod를 결합합니다. Google의 네트워크 지연 시간과 대역폭은 슈퍼포드 내에서 모델 병렬성과 슈퍼포드 간 데이터 병렬성을 활용하는 일반적으로 사용되는 동기식 훈련 패러다임을 지원하기에 충분합니다.

Jax(Bradbury 등, 2018)와 Pathways(Barham 등, 2022)의 ‘단일 컨트롤러’ 프로그래밍 모델은 단일 Python 프로세스가 전체 훈련 실행을 조율할 수 있게 하여 개발 워크플로우를 크게 단순화합니다. XLA 컴파일러의 GSPMD 파티셔너(Xu 등, 2021)는 훈련 단계 계산을 분할하고, MegaScale XLA 컴파일러(XLA, 2019)는 적절한 컬렉티브를 정적으로 스케줄링하여 계산과 최대한 겹치도록 하며 단계 시간의 변동이 거의 없습니다.

이 규모에서 높은 굿풋(goodput)을 유지하는 것은 가중치를 영구 클러스터 스토리지에 주기적으로 체크포인팅하는 기존 접근 방식으로는 불가능했을 것입니다. Gemini 모델의 경우, 대신 모델 상태의 중복 인메모리 복사본을 활용했으며, 계획되지 않은 하드웨어 고장이 발생하면 손상되지 않은 모델 복제본에서 직접 신속하게 복구합니다. PaLM과 PaLM-2(Anil 등, 2023)에 비해, 훨씬 더 큰 훈련 리소스를 사용했음에도 불구하고 복구 시간이 상당히 단축되었습니다. 결과적으로 가장 대규모 훈련 작업의 전체 굿풋은 85%에서 97%로 증가했습니다.

전례 없는 규모로 훈련하면 필연적으로 새롭고 흥미로운 시스템 고장 모드가 발생합니다. 이 경우 해결해야 했던 문제 중 하나는 “무음 데이터 손상(Silent Data Corruption, SDC)”(Dixit 등, 2021; Hochschild 등, 2021; Vishwanathan 등, 2015)이었습니다. 이러한 오류는 극히 드물지만, Gemini 모델의 규모로 인해 1~2주마다 SDC 이벤트가 훈련에 영향을 미칠 것으로 예상할 수 있습니다. 잘못된 계산을 격리하기 위해 결정론적 재생을 활용하는 여러 새로운 기술과 유휴 머신에서의 사전 예방적 SDC 스캐너 및 핫 스탠바이를 결합하여 결함이 있는 하드웨어를 신속하게 감지하고 제거할 수 있었습니다. 완전히 결정론적인 인프라를 통해 Ultra 모델로 이어지는 개발 과정에서 하드웨어 고장을 포함한 근본 원인을 신속하게 식별할 수 있었으며, 이는 안정적인 훈련을 위한 중요한 요소였습니다.

TPU 인프라 및 네트워크 토폴로지

Gemini 모델 훈련에 사용된 TPUv4 시스템은 기존의 슈퍼컴퓨터 아키텍처와는 다른 혁신적인 접근 방식을 채택했습니다. TPUv4 SuperPod는 4096개의 칩으로 구성되며, 각 칩은 전용 광학 스위치에 연결되어 있습니다. 이 광학 회로 스위칭(OCS) 기술은 약 10초 만에 4x4x4 칩 큐브를 임의의 3D 토러스 토폴로지로 동적으로 재구성할 수 있게 합니다. 이러한 재구성 가능한 상호연결 토폴로지는 다음과 같은 여러 이점을 제공합니다.

확장성: 시스템이 더 큰 규모로 확장됨에 따라 토폴로지를 최적화할 수 있습니다.
가용성: 하드웨어 고장이 발생할 경우 토폴로지를 재구성하여 영향을 최소화할 수 있습니다.
모듈성: 시스템을 더 작은 독립적인 단위로 분할할 수 있습니다.
성능: 특정 워크로드에 맞게 토폴로지를 최적화할 수 있습니다.
전력 효율성: 필요한 스위치 수를 줄여 전력 소비를 최소화합니다.

TPUv4 시스템의 광학 회로 스위치와 기본 광학 구성 요소는 전체 시스템 비용의 5% 미만, 전력 소비의 3% 미만을 차지하여 비용 효율적인 솔루션을 제공합니다(Jouppi 등, 2023).

분산 훈련 최적화

Gemini 모델 훈련의 핵심 과제 중 하나는 여러 데이터센터에 걸쳐 있는 대규모 가속기 집합을 효율적으로 조율하는 것이었습니다. 이를 위해 JAX(Bradbury 등, 2018)와 Pathways(Barham 등, 2022)의 ‘단일 컨트롤러’ 프로그래밍 모델이 사용되었습니다. 이 접근 방식은 단일 Python 프로세스가 전체 훈련 실행을 조율할 수 있게 하여 개발 워크플로우를 크게 단순화합니다.

JAX는 Python과 NumPy 프로그램의 구성 가능한 변환을 위한 프레임워크로, 다음과 같은 핵심 기능을 제공합니다.

자동 미분: grad 함수를 통해 임의의 Python/NumPy 함수의 미분을 자동으로 계산합니다.
벡터화: vmap 함수를 사용하여 함수를 벡터화합니다.
병렬화: pmap 함수를 통해 여러 가속기에 걸쳐 계산을 병렬화합니다.
JIT 컴파일: jit 함수를 사용하여 Python 함수를 XLA로 컴파일합니다.

이러한 변환은 구성 가능하여 복잡한 계산 그래프를 효율적으로 표현하고 최적화할 수 있습니다.

XLA 컴파일러의 GSPMD 파티셔너(Xu 등, 2021)는 훈련 단계 계산을 효율적으로 분할합니다. GSPMD는 텐서 샤딩을 위한 간단하면서도 일반적인 표현을 정의하여 데이터 병렬성, 모델 병렬성 및 공간 분할을 포함한 다양한 병렬성 패턴을 통합된 API를 통해 표현할 수 있게 합니다. 수학적으로 텐서 샤딩은 다음과 같이 표현될 수 있습니다.

샤딩 텐서 \(\mathbf{S}\)에 대해, \(\text{Offset}(\mathbf{S}, d, i)\)는 차원 \(i\)에서 장치 \(d\)의 샤드 오프셋을 나타냅니다. 두 샤딩 \(\mathbf{S}_0\)와 \(\mathbf{S}_1\)은 모든 샤딩된 차원에 대해 오프셋이 일치하면 호환됩니다.

GSPMD는 단일 프로그램 다중 데이터(SPMD) 접근 방식을 채택하여 모든 파티션에 대해 단일 프로그램을 생성합니다. 이는 각 파티션에 대해 별도의 프로그램을 생성하는 컴파일 오버헤드를 피하여 수천 개의 장치로 확장할 수 있게 합니다.

MegaScale XLA 컴파일러 패스는 컬렉티브를 정적으로 스케줄링하여 계산과 최대한 겹치도록 하며 단계 시간의 변동이 거의 없게 합니다. 이는 분산 훈련의 효율성을 크게 향상시키는 중요한 최적화입니다.

고장 허용 및 복구 메커니즘

Gemini 모델 훈련의 또 다른 중요한 측면은 하드웨어 고장에 대한 강력한 복구 메커니즘입니다. 기존의 접근 방식은 가중치를 영구 클러스터 스토리지에 주기적으로 체크포인팅하는 것이었지만, Gemini 모델의 규모에서는 이 방법이 효율적이지 않습니다.

대신, Gemini 모델 훈련은 모델 상태의 중복 인메모리 복사본을 활용했습니다. 계획되지 않은 하드웨어 고장이 발생하면 손상되지 않은 모델 복제본에서 직접 신속하게 복구합니다. 이 접근 방식은 PaLM과 PaLM-2(Anil 등, 2023)에 비해 복구 시간을 상당히 단축시켰으며, 훨씬 더 큰 훈련 리소스를 사용했음에도 불구하고 전체 굿풋(유효 계산 효율성)을 85%에서 97%로 증가시켰습니다.

무음 데이터 손상(SDC) 감지 및 완화

전례 없는 규모로 훈련할 때 발생하는 중요한 문제 중 하나는 “무음 데이터 손상(Silent Data Corruption, SDC)”(Dixit 등, 2021)입니다. SDC는 CPU가 오류 표시 없이 잘못된 계산을 수행하여 손상된 데이터가 소프트웨어 스택을 통해 전파되는 오류입니다.

SDC는 방사선으로 인한 소프트 오류에 대해 일반적으로 보고되는 백만 분의 일(FIT) 비율보다 훨씬 높은 비율로 발생하는 것으로 관찰됩니다. 이는 CPU 기능 블록 내의 최소한의 오류 수정 때문으로, SRAM 구조와 달리 보호가 잘 되어 있지 않습니다.

Gemini 모델의 규모에서는 이러한 오류가 매우 드물더라도 1~2주마다 SDC 이벤트가 훈련에 영향을 미칠 것으로 예상할 수 있습니다. 이를 해결하기 위해 다음과 같은 여러 기술이 개발되었습니다.

결정론적 재생: 잘못된 계산을 격리하기 위해 결정론적 재생을 활용합니다.
사전 예방적 SDC 스캐너: 유휴 머신에서 SDC를 사전에 감지합니다.
핫 스탠바이: 고장이 발생한 하드웨어를 신속하게 대체할 수 있는 예비 리소스를 유지합니다.

완전히 결정론적인 인프라를 통해 Ultra 모델로 이어지는 개발 과정에서 하드웨어 고장을 포함한 근본 원인을 신속하게 식별할 수 있었으며, 이는 안정적인 훈련을 위한 중요한 요소였습니다.

확장성 과제 및 해결책

Gemini 모델 훈련의 규모는 이전 모델인 PaLM-2에 비해 크게 증가했으며, 이로 인해 새로운 인프라 과제가 발생했습니다. 가속기 수를 확장하면 전체 시스템에서 하드웨어 고장 간 평균 시간이 비례적으로 감소합니다.

이러한 과제를 해결하기 위해 다음과 같은 접근 방식이 채택되었습니다.

계획된 재스케줄링과 선점 최소화: 예측 가능한 시스템 중단을 최소화합니다.
동적 토폴로지 재구성: TPUv4의 광학 회로 스위칭을 활용하여 하드웨어 고장에 적응합니다.
슈퍼포드당 소수의 큐브 유지: 핫 스탠바이와 롤링 유지보수를 위한 여유 리소스를 제공합니다.
모델 병렬성과 데이터 병렬성의 조합: 슈퍼포드 내에서 모델 병렬성과 슈퍼포드 간 데이터 병렬성을 활용합니다.
중복 인메모리 모델 상태: 하드웨어 고장으로부터 신속하게 복구할 수 있게 합니다.

이러한 접근 방식의 조합을 통해 Gemini 모델은 전례 없는 규모에서도 안정적이고 효율적인 훈련을 달성할 수 있었습니다.

사전 학습 데이터셋

Gemini 모델은 멀티모달 및 다국어 데이터셋을 기반으로 학습되었습니다. 사전 학습 데이터셋은 웹 문서, 책, 코드 데이터를 포함하며, 이미지, 오디오, 비디오 데이터도 포함합니다. 모델 학습에는 SentencePiece 토크나이저(Kudo와 Richardson, 2018)가 사용되었으며, 전체 학습 코퍼스의 대규모 샘플에서 토크나이저를 학습시키면 추론된 어휘가 개선되고 결과적으로 모델 성능이 향상된다는 것을 발견했습니다. 예를 들어, Gemini 모델은 비라틴 문자를 효율적으로 토큰화할 수 있으며, 이는 모델 품질뿐만 아니라 학습 및 추론 속도에도 도움이 될 수 있습니다.

토큰 수와 학습 전략

가장 큰 모델을 학습시키는 데 사용된 토큰 수는 Hoffmann 등, 2022의 접근 방식을 따라 결정되었습니다. 이 연구에서는 컴퓨팅 예산이 주어졌을 때 모델 크기와 학습 토큰 수 사이의 최적 균형을 찾는 방법을 제시했습니다. 그들의 연구에 따르면, 컴퓨팅 최적 학습을 위해서는 모델 크기와 학습 토큰 수를 동등하게 확장해야 합니다. 즉, 모델 크기가 두 배로 증가할 때마다 학습 토큰 수도 두 배로 증가해야 합니다.

작은 모델들은 주어진 추론 예산에 대한 성능을 향상시키기 위해 상당히 더 많은 토큰으로 학습되었으며, 이는 Touvron 등, 2023a가 제안한 접근 방식과 유사합니다. 이러한 접근 방식은 작은 모델이 더 많은 데이터에 노출됨으로써 제한된 매개변수 공간 내에서 더 효율적으로 지식을 압축할 수 있게 합니다.

데이터 품질 관리

모든 데이터셋에는 품질 필터가 적용되었으며, 이는 휴리스틱 규칙과 모델 기반 분류기를 모두 사용합니다. 휴리스틱 규칙은 텍스트 길이, 문법적 정확성, 중복성과 같은 기본적인 품질 지표를 확인하는 반면, 모델 기반 분류기는 더 복잡한 품질 특성을 평가합니다. 이러한 접근 방식은 학습 데이터의 전반적인 품질을 향상시키는 데 중요합니다.

또한 유해한 콘텐츠를 제거하기 위해 Google의 정책에 기반한 안전 필터링이 수행되었습니다. 이는 모델이 유해하거나 부적절한 콘텐츠를 생성하지 않도록 하는 데 중요한 단계입니다.

평가 데이터 무결성 보장

평가의 무결성을 유지하기 위해, 연구팀은 학습 코퍼스에 있을 수 있는 평가 데이터를 검색하여 제거했습니다. 이는 데이터를 학습에 사용하기 전에 수행되었으며, 모델이 단순히 평가 데이터를 기억하는 것이 아니라 실제로 일반화 능력을 갖추도록 보장하는 중요한 단계입니다.

이러한 접근 방식은 평가 데이터 오염(test data contamination)이라고 알려진 문제를 방지합니다. 평가 데이터 오염은 모델이 테스트 중에 접하게 될 데이터에 이미 노출되어 있을 때 발생하며, 이는 모델의 실제 성능을 과대평가하게 만들 수 있습니다.

데이터 혼합 및 단계적 학습

최종 데이터 혼합 및 가중치는 작은 모델에 대한 실험을 통해 결정되었습니다. 이러한 실험은 다양한 데이터 소스의 최적 비율을 찾는 데 도움이 되었으며, 이 비율은 나중에 더 큰 모델에 적용되었습니다.

연구팀은 학습 중에 혼합 구성을 변경하는 단계적 학습(staged training)을 적용했습니다. 특히 학습 후반부에는 도메인 관련 데이터의 가중치를 증가시켰습니다. 이러한 접근 방식은 모델이 먼저 광범위한 지식을 습득한 다음, 특정 도메인에 대한 전문성을 개발하도록 합니다.

단계적 학습의 수학적 표현은 다음과 같이 나타낼 수 있습니다.

\[ p_i(t) = \frac{w_i(t) \cdot n_i}{\sum_j w_j(t) \cdot n_j} \]

여기서:

\(p_i(t)\)는 학습 단계 \(t\)에서 데이터 소스 \(i\)에서 샘플을 추출할 확률입니다.
\(w_i(t)\)는 학습 단계 \(t\)에서 데이터 소스 \(i\)에 할당된 가중치입니다.
\(n_i\)는 데이터 소스 \(i\)의 샘플 수입니다.

학습이 진행됨에 따라 \(w_i(t)\)는 도메인 관련 데이터 소스에 대해 증가하여 모델이 해당 도메인에 더 집중하도록 합니다.

데이터 품질의 중요성

연구팀은 데이터 품질이 고성능 모델을 위한 중요한 요소라는 것을 발견했습니다. 이는 단순히 데이터의 양을 늘리는 것보다 데이터의 품질을 향상시키는 것이 모델 성능에 더 큰 영향을 미칠 수 있음을 시사합니다.

SentencePiece 토크나이저(Kudo와 Richardson, 2018)의 사용은 이러한 데이터 품질 향상에 중요한 역할을 했습니다. SentencePiece는 언어 독립적인 서브워드 토크나이저로, 다음과 같은 주요 기술적 특징을 가지고 있습니다.

무손실 토큰화: SentencePiece는 입력 텍스트를 유니코드 문자 시퀀스로 처리하여 원본 텍스트를 재현하는 데 필요한 모든 정보를 보존합니다. 공백도 일반 기호로 처리되어 언어별 규칙 없이 무손실 디토큰화가 가능합니다.
효율적인 서브워드 학습 및 분할: SentencePiece는 BPE(Byte-Pair Encoding)의 경우 \(O(N\log(N))\) 복잡도, 유니그램 언어 모델의 경우 선형 복잡도를 달성하는 속도 향상 기법을 사용합니다. 이를 통해 SentencePiece는 기존 도구와 달리 사전 토큰화된 입력을 가정하지 않고 원시 텍스트를 효율적으로 처리할 수 있습니다.
자체 포함 모델: SentencePiece 모델 파일은 어휘, 분할 매개변수 및 사전 컴파일된 문자 정규화 규칙을 포함합니다. 이 설계는 특정 소프트웨어 버전이나 구성에 대한 외부 종속성 없이 전처리의 완벽한 재현성을 보장합니다.

Gemini 모델에서 SentencePiece 토크나이저를 전체 학습 코퍼스의 대규모 샘플에서 학습시킴으로써, 모델은 다양한 언어와 스크립트에 대해 더 효율적인 토큰화를 달성할 수 있었습니다. 특히 비라틴 문자(예: 한글, 한자, 아랍어, 키릴 문자 등)를 효율적으로 토큰화할 수 있게 되었으며, 이는 모델의 다국어 능력을 향상시키는 데 중요한 역할을 했습니다.

효율적인 토큰화는 두 가지 주요 이점을 제공합니다.

모델 품질 향상: 더 효율적인 토큰화는 모델이 다양한 언어의 의미론적, 구문적 패턴을 더 잘 포착할 수 있게 합니다. 이는 특히 비라틴 문자를 사용하는 언어에서 중요합니다.
학습 및 추론 속도 향상: 효율적인 토큰화는 입력 시퀀스의 길이를 줄일 수 있으며, 이는 학습 및 추론 중에 처리해야 하는 토큰 수를 줄여 계산 효율성을 향상시킵니다.

사전 학습 데이터셋에 관한 향후 연구 방향

연구팀은 사전 학습을 위한 최적의 데이터셋 분포를 찾는 것에 관해 여전히 많은 흥미로운 질문이 남아 있다고 언급합니다. 이러한 질문에는 다음이 포함될 수 있습니다.

다양한 데이터 소스 간의 최적 비율은 무엇인가?
도메인별 데이터와 일반 데이터 사이의 균형을 어떻게 맞출 것인가?
학습 중에 데이터 혼합을 어떻게 동적으로 조정할 것인가?
데이터 품질과 양 사이의 최적 균형은 무엇인가?
다국어 및 멀티모달 데이터의 최적 비율은 무엇인가?

이러한 질문들은 향후 연구에서 탐구될 수 있으며, 더 효과적인 사전 학습 데이터셋 구성 전략을 개발하는 데 도움이 될 것입니다.

데이터 품질의 중요성에 대한 연구팀의 강조는 단순히 더 많은 데이터를 수집하는 것보다 고품질 데이터를 식별하고 선별하는 방법에 더 많은 연구가 필요함을 시사합니다. 이는 특히 멀티모달 모델에서 중요한데, 여기서는 다양한 모달리티(텍스트, 이미지, 오디오, 비디오)의 데이터 품질이 모델의 전반적인 성능에 영향을 미칠 수 있기 때문입니다.

평가

Gemini 모델은 텍스트, 이미지, 오디오, 비디오에 걸쳐 공동으로 학습된 본질적으로 멀티모달 모델입니다. 이러한 공동 학습이 단일 도메인에 맞춰진 모델과 접근 방식과 비교해도 각 도메인에서 강력한 성능을 보이는 모델을 만들 수 있는지는 열린 질문이었습니다. 연구 결과, 이것이 가능하다는 것이 확인되었습니다. Gemini 모델은 텍스트, 이미지, 오디오, 비디오 벤치마크 전반에 걸쳐 새로운 최첨단 성능을 달성했습니다.

텍스트

학술 벤치마크

연구팀은 사전 및 사후 학습된 Gemini Pro와 Ultra 모델을 외부 대규모 언어 모델(LLM)과 이전 최고 모델인 PaLM 2와 비교하여 추론, 독해력, STEM, 코딩을 다루는 일련의 텍스트 기반 학술 벤치마크에서 평가했습니다. 이러한 결과는 표 2에 보고되어 있습니다. 전반적으로 Gemini Pro는 GPT-3.5와 같은 추론 최적화 모델보다 성능이 우수하며 현재 사용 가능한 가장 유능한 모델 중 일부와 비슷한 성능을 보이고, Gemini Ultra는 모든 현재 모델보다 성능이 뛰어납니다. 이 섹션에서는 이러한 발견 중 일부를 살펴보겠습니다.

MMLU(Hendrycks 등, 2021a)에서 Gemini Ultra는 90.04%의 정확도를 달성하여 모든 기존 모델을 능가할 수 있습니다. MMLU는 57개 과목에 걸친 지식을 측정하는 종합적인 시험 벤치마크입니다. 벤치마크 저자들에 의해 인간 전문가 성능은 89.8%로 측정되었으며, Gemini Ultra는 이 임계값을 초과한 최초의 모델로, 이전 최첨단 결과는 86.4%였습니다. 높은 성능을 달성하려면 많은 도메인(예: 법률, 생물학, 역사 등)에 걸친 전문 지식과 함께 독해력과 추론이 필요합니다. Gemini Ultra는 모델 불확실성을 고려하는 체인 오브 소트(chain-of-thought) 프롬프팅 접근법(Wei 등, 2022b)과 함께 사용할 때 가장 높은 정확도를 달성합니다. 모델은 예를 들어 8개 또는 32개의 샘플로 체인 오브 소트를 생성합니다. 사전 설정된 임계값(검증 분할에 기반하여 선택됨) 이상의 합의가 있으면 이 답변을 선택하고, 그렇지 않으면 체인 오브 소트 없이 최대 가능성 선택에 기반한 탐욕적 샘플로 되돌아갑니다. 이 접근법이 체인 오브 소트 프롬프팅만 사용하거나 탐욕적 샘플링만 사용하는 것과 어떻게 비교되는지에 대한 자세한 내용은 부록을 참조하시기 바랍니다.

수학 분야에서는 모델의 분석 능력을 벤치마킹하는 데 일반적으로 사용되는 분야로, Gemini Ultra는 초등학교 시험과 경쟁 수준의 문제 세트 모두에서 강력한 성능을 보여줍니다. 초등학교 수학 벤치마크인 GSM8K(Cobbe 등, 2021)의 경우, Gemini Ultra는 체인 오브 소트 프롬프팅과 자기 일관성(Wang 등, 2022)을 사용하여 94.4%의 정확도에 도달하는데, 이는 동일한 프롬프팅 기법을 사용한 이전 최고 정확도 92%와 비교됩니다. 중학교 및 고등학교 수학 경시대회에서 추출한 난이도가 높은 수학 문제(MATH 벤치마크)에서도 유사한 긍정적인 추세가 관찰되며, Gemini Ultra 모델은 4-샷 프롬프팅을 사용하여 53.2%에 도달하여 모든 경쟁 모델을 능가합니다. 이 모델은 또한 미국 수학 경시대회(2022년과 2023년의 150개 문제)에서 파생된 더 어려운 작업에서도 최첨단 성능을 능가합니다. 작은 모델들은 이 도전적인 작업에서 무작위에 가까운 점수를 받으며 성능이 좋지 않지만, Gemini Ultra는 문제의 32%를 해결할 수 있으며, 이는 GPT-4의 30% 해결률과 비교됩니다.

Gemini Ultra는 또한 현재 LLM의 인기 있는 사용 사례인 코딩에서도 뛰어납니다. 우리는 모델을 많은 기존 및 내부 벤치마크에서 평가하고 AlphaCode 2와 같은 더 복잡한 추론 시스템의 일부로서의 성능도 측정합니다(복잡한 추론 시스템에 관한 5.1.7절 참조). 예를 들어, HumanEval은 함수 설명을 Python 구현에 매핑하는 표준 코드 완성 벤치마크(Chen 등, 2021)에서 명령어 조정된 Gemini Ultra는 문제의 74.4%를 올바르게 구현합니다. Python 코드 생성 작업을 위한 새로운 보류 평가 벤치마크인 Natural2Code에서, 웹 유출이 없음을 보장하는 경우, Gemini Ultra는 74.9%의 최고 점수를 달성합니다.

이러한 벤치마크에 대한 평가는 어렵고 데이터 오염의 영향을 받을 수 있습니다. 우리는 여기서 보고하는 결과가 과학적으로 가능한 한 건전하도록 하기 위해 훈련 후 광범위한 유출 데이터 분석을 수행했지만, 여전히 몇 가지 사소한 문제를 발견했으며 예를 들어 LAMBADA(Paperno 등, 2016)에 대한 결과를 보고하지 않기로 결정했습니다. 평가 과정의 일환으로, 인기 있는 벤치마크인 HellaSwag(Zellers 등, 2019)에서, 우리는 HellaSwag 훈련 세트에 해당하는 특정 웹사이트 추출물에 대한 추가 백 번의 미세 조정 단계(Gemini 모델 사전 훈련 세트에 포함되지 않은)가 1-샷 프롬프팅으로 측정했을 때 Gemini Pro의 검증 정확도를 89.6%로, Gemini Ultra를 96.0%로 향상시킨다는 것을 발견했습니다(API를 통해 1-샷으로 평가된 GPT-4는 92.3%를 얻었습니다). 이는 벤치마크 결과가 사전 훈련 데이터셋 구성에 영향을 받을 수 있음을 시사합니다. 우리는 10-샷 평가 설정에서만 HellaSwag 오염 제거 결과를 보고하기로 선택했습니다. 우리는 유출된 데이터가 없는 더 강력하고 미묘한 표준화된 평가 벤치마크가 필요하다고 생각합니다. 따라서, 우리는 Gemini 모델을 WMT23 및 Math-AMC 2022-2023 문제와 같이 최근에 출시된 여러 새로운 보류 평가 데이터셋이나 Natural2Code와 같이 비웹 소스에서 내부적으로 생성된 데이터셋에서 평가합니다. 우리의 평가 벤치마크에 대한 포괄적인 목록은 부록 10.3을 참조하시기 바랍니다. 그럼에도 불구하고, 이러한 벤치마크에서의 모델 성능은 모델 능력과 실제 작업에 미칠 수 있는 영향에 대한 지표를 제공합니다. 예를 들어, Gemini Ultra의 인상적인 추론 및 STEM 역량은 교육 도메인 내에서 LLM의 발전을 위한 길을 열어줍니다. 복잡한 수학적 및 과학적 개념을 다룰 수 있는 능력은 개인화된 학습 및 지능형 튜터링 시스템을 위한 흥미로운 가능성을 열어줍니다.

능력의 추세

우리는 Gemini 모델 계열 전반에 걸친 능력의 추세를 조사하기 위해 여섯 가지 다른 능력에서 50개 이상의 벤치마크로 구성된 종합적인 하네스에서 평가하며, 가장 주목할 만한 벤치마크 중 일부는 지난 섹션에서 논의되었습니다. 이러한 능력은 다음과 같습니다. 개방형/폐쇄형 검색 및 질문 응답 작업을 다루는 “사실성”; 장문 요약, 검색 및 질문 응답 작업을 다루는 “긴 컨텍스트”; 수학적 문제 해결, 정리 증명 및 과학 시험을 포함하는 “수학/과학”; 산술, 과학 및 상식 추론이 필요한 “추론” 작업; 여러 언어로 번역, 요약 및 추론을 위한 “다국어” 작업. 이러한 능력 중 일부는 사후 훈련에 의해 대상이 됩니다(6절 참조). 각 능력에 포함된 작업의 자세한 목록은 부록 10.3을 참조하시기 바랍니다.

그림 3에서 우리는 모델 크기가 증가함에 따라 특히 추론, 수학/과학, 요약 및 긴 컨텍스트에서 일관된 품질 향상을 관찰합니다. Gemini Ultra는 모든 여섯 가지 능력에서 전반적으로 최고의 모델입니다. Gemini 모델 계열에서 두 번째로 큰 모델인 Gemini Pro도 서비스하기에 훨씬 더 효율적이면서도 상당히 경쟁력이 있습니다.

Nano

AI를 사용자에게 더 가깝게 가져오기 위해, 우리는 온디바이스 배포를 위해 설계된 Gemini Nano 1 및 Nano 2 모델에 대해 논의합니다. 이러한 모델은 작업별 미세 조정을 통해 요약 및 독해 작업에서 뛰어납니다. 그림 3은 이러한 사전 훈련된 모델의 성능을 훨씬 더 큰 Gemini Pro 모델과 비교하여 보여주며, 표 3은 특정 사실성, 코딩, 수학/과학 및 추론 작업에 대해 더 자세히 살펴봅니다. Nano-1 및 Nano-2 모델 크기는 각각 1.8B 및 3.25B 매개변수에 불과합니다. 그 크기에도 불구하고, 이들은 사실성, 즉 검색 관련 작업에서 예외적으로 강한 성능을 보이며, 추론, STEM, 코딩, 멀티모달 및 다국어 작업에서 상당한 성능을 보입니다. Gemini 모델은 더 넓은 범위의 플랫폼과 장치에 접근할 수 있는 새로운 기능을 통해 모든 사람에게 접근성을 확장합니다.

다국어성

Gemini 모델의 다국어 능력은 다국어 이해, 교차 언어 일반화, 여러 언어로의 텍스트 생성이 필요한 다양한 작업 세트를 사용하여 평가됩니다. 이러한 작업에는 기계 번역 벤치마크(고-중-저 자원 번역을 위한 WMT 23; 저자원 및 매우 저자원 언어를 위한 Flores, NTREX), 요약 벤치마크(XLSum, Wikilingua) 및 일반 벤치마크의 번역 버전(MGSM: 11개 언어로 전문적으로 번역됨)이 포함됩니다.

기계 번역

번역은 풍부한 역사를 가진 기계 학습의 표준적인 벤치마크입니다. 우리는 사후 훈련된 Gemini API Ultra 모델(6.5.3절 참조)을 퓨 샷 설정에서 WMT 23 번역 벤치마크의 전체 언어 쌍 세트에서 평가했습니다. 전반적으로, 우리는 Gemini Ultra(및 다른 Gemini 모델)가 영어에서 다른 언어로 번역하는 데 놀라울 정도로 잘 수행하며, 영어 외 언어, 고자원, 중자원 및 저자원 언어를 번역할 때 LLM 기반 번역 방법을 능가한다는 것을 발견했습니다. WMT 23 영어 외 번역 작업에서, Gemini Ultra는 평균 BLEURT(Sellam 등, 2020) 점수 74.8로 가장 높은 LLM 기반 번역 품질을 달성했으며, 이는 GPT-4의 점수 73.6 및 PaLM 2의 점수 72.2와 비교됩니다. WMT 23의 모든 언어 쌍과 방향에 걸쳐 평균을 내면, 우리는 이 벤치마크에서 Gemini Ultra 74.4, GPT-4 73.8 및 PaLM 2-L 72.7의 평균 BLEURT 점수로 유사한 추세를 볼 수 있습니다.

위의 언어 및 번역 작업 외에도, 우리는 Gemini Ultra를 매우 저자원 언어에서도 평가합니다. 이러한 언어는 다음 언어 세트의 꼬리에서 샘플링되었습니다. Flores-200(타마지트어 및 카누리어), NTREX(북은데벨레어) 및 내부 벤치마크(케추아어). 이러한 언어에 대해, 영어에서 및 영어로의 번역 모두에서, Gemini Ultra는 1-샷 설정에서 평균 chrF 점수 27.0을 달성했으며, 다음으로 좋은 모델인 PaLM 2-L은 25.3의 점수를 달성했습니다.

다국어 수학 및 요약

번역을 넘어, 우리는 Gemini 모델이 다양한 언어에서 도전적인 작업을 얼마나 잘 수행하는지 평가했습니다. 우리는 특히 수학 벤치마크 MGSM(Shi 등, 2023)을 조사했는데, 이는 수학 벤치마크 GSM8K(Cobbe 등, 2021)의 번역 변형입니다. 우리는 Gemini Ultra가 8-샷 설정에서 모든 언어에 걸쳐 평균 79.0%의 정확도를 달성하여, 74.7%를 기록한 PaLM 2-L보다 앞선다는 것을 발견했습니다. 우리는 또한 Gemini 모델을 다국어 요약 벤치마크인 XLSum(Hasan 등, 2021)과 WikiLingua(Ladhak 등, 2020)에서 벤치마킹합니다. XLSum에서, Gemini Ultra는 PaLM 2의 15.4와 비교하여 평균 17.6 rougeL 점수에 도달했습니다. Wikilingua의 경우, Gemini Ultra(5-샷)는 BLEURT 점수로 측정했을 때 PaLM 2(3-샷)보다 뒤처집니다. 전체 결과는 표 5를 참조하시기 바랍니다. 전반적으로 다양한 다국어 벤치마크는 Gemini 계열 모델이 광범위한 언어 범위를 가지고 있어 저자원 언어가 있는 지역과 지역에도 도달할 수 있음을 보여줍니다.

긴 컨텍스트

Gemini 모델은 32,768 토큰의 시퀀스 길이로 훈련되었으며, 우리는 이들이 컨텍스트 길이를 효과적으로 활용한다는 것을 발견했습니다. 우리는 먼저 합성 검색 테스트를 실행하여 이를 확인합니다. 우리는 컨텍스트 시작 부분에 키-값 쌍을 배치한 다음, 긴 필러 텍스트를 추가하고, 특정 키와 관련된 값을 요청합니다. 우리는 Ultra 모델이 전체 컨텍스트 길이에 걸쳐 쿼리될 때 98%의 정확도로 올바른 값을 검색한다는 것을 발견했습니다. 우리는 그림 4에서 보류 세트의 긴 문서에 걸쳐 토큰 인덱스에 대한 음의 로그 가능성(NLL)을 플롯하여 이를 더 조사합니다. 우리는 NLL이 전체 32K 컨텍스트 길이까지 시퀀스 위치에 따라 감소한다는 것을 발견했습니다. Gemini 모델의 더 긴 컨텍스트 길이는 5.2.2절에서 논의된 문서 검색 및 비디오 이해와 같은 새로운 사용 사례를 가능하게 합니다.

사실성

사실성(Maynez 등, 2020)은 우리 모델의 훈련 및 배포의 핵심 초점입니다. 우리는 Gemini API 모델에 대한 사실성의 세 가지 측면을 평가합니다.

폐쇄형 사실성: 주어진 소스 없이 사실을 찾는 프롬프트가 제공되면, Gemini API 모델은 잘못된 정보를 환각해서는 안 됩니다(Roberts 등(2020)의 2절에서 정의 참조). 이러한 프롬프트는 정보를 찾는 프롬프트(예: “인도의 총리는 누구인가요?”)부터 사실적 정보를 요청할 수 있는 반창의적 프롬프트(예: “재생 에너지 채택을 지지하는 500단어 연설을 작성하세요”)까지 다양할 수 있습니다.
귀속: 주어진 컨텍스트에 근거한 응답을 생성하도록 지시받으면, 우리는 Gemini API 모델이 컨텍스트에 대한 최고 수준의 충실도로 응답을 생성하도록 보장하는 것을 목표로 합니다(Maynez 등, 2020; Rashkin 등, 2023). 여기에는 사용자가 제공한 소스의 요약, Menick 등(2022); Peng 등(2023)과 유사한 질문과 제공된 스니펫이 주어진 세밀한 인용 생성, 책과 같은 장문 소스에서 질문에 답하기(Mihaylov 등, 2018), 주어진 소스를 원하는 출력으로 변환하기(예: 회의 기록의 일부에서 이메일 작성) 등이 포함될 수 있습니다.
헤징: “대답할 수 없는” 입력으로 프롬프트되면, Gemini API 모델은 환각을 피하기 위해 헤징하여 응답을 제공할 수 없다는 것을 인정해야 합니다. 여기에는 입력 프롬프트에 거짓 전제 질문이 포함된 시나리오[Hu 등(2023)의 예시 참조], 입력 프롬프트가 모델에게 오픈 북 QA를 수행하도록 지시하지만 답변이 주어진 컨텍스트에서 도출될 수 없는 경우 등이 포함됩니다.

사실성은 각 응답을 수동으로 사실 확인하는 인간 주석자를 통해 평가됩니다; 우리는 주석자가 판단한 사실적으로 부정확한 응답의 비율을 보고합니다. 귀속은 각 응답에 대해 프롬프트의 소스에 대한 귀속을 수동으로 확인하는 인간 주석자를 통해 평가됩니다; 보고된 메트릭은 AIS(Rashkin 등, 2023)입니다. 헤징의 경우, 우리는 모델이 정확하게 헤징하는지 측정하는 자동 평가 설정을 사용합니다. 우리는 표 6에서 사실성 중심 적응이 없는 버전과 Gemini API Pro를 비교합니다. 우리는 사실성 세트에서 부정확성 비율이 절반으로 줄어들고, 귀속 세트에서 귀속의 정확도가 50% 증가하며, 모델이 제공된 헤징 세트 작업에서 70%(0%에서 증가)를 성공적으로 헤징한다는 것을 볼 수 있습니다.

복잡한 추론 시스템

Gemini 모델은 또한 검색 및 도구 사용과 같은 추가 기술과 결합하여 더 복잡한 다단계 문제를 해결할 수 있는 강력한 추론 시스템을 만들 수 있습니다. 이러한 시스템의 한 예는 AlphaCode 2로, 경쟁 프로그래밍 문제 해결에 탁월한 새로운 최첨단 에이전트입니다(Leblond 등, 2023). AlphaCode 2는 Li 등(2022)에서 사용된 데이터와 유사한 경쟁 프로그래밍 데이터에 조정된 Gemini Pro의 특수 버전을 사용하여 가능한 프로그램 공간에 대한 대규모 검색을 수행합니다. 이후 맞춤형 필터링, 클러스터링 및 재순위 지정 메커니즘이 뒤따릅니다. Gemini Pro는 제안 솔루션 후보를 생성하는 코딩 모델과 가장 유망한 코드 후보를 인식하고 추출하는 데 활용되는 보상 모델 모두로 미세 조정됩니다.

AlphaCode 2는 AlphaCode와 동일한 플랫폼인 Codeforces에서 평가되며, 총 77개 문제에 대해 디비전 1과 2에서 12개의 대회에서 평가됩니다. AlphaCode 2는 이러한 경쟁 문제의 43%를 해결했으며, 이는 25%를 해결한 이전 기록 보유 AlphaCode 시스템보다 1.7배 향상된 것입니다. 이를 경쟁 순위에 매핑하면, Gemini Pro를 기반으로 한 AlphaCode 2는 평균적으로 추정 85 백분위수에 위치합니다. 즉, 참가자의 85%보다 더 나은 성능을 보입니다. 이는 경쟁자의 50%만 능가한 AlphaCode에 비해 상당한 발전입니다.

검색 및 추론 메커니즘과 강력한 사전 훈련된 모델의 구성은 더 일반적인 에이전트를 향한 흥미로운 방향입니다; 또 다른 핵심 요소는 다음 섹션에서 논의할 다양한 모달리티에 걸친 깊은 이해입니다.

평가

멀티모달

Gemini 모델은 본질적으로 멀티모달입니다. 이 모델들은 모달리티 전반에 걸쳐 능력을 원활하게 결합하는 독특한 능력을 보여줍니다(예: 표, 차트 또는 그림에서 정보와 공간적 레이아웃을 추출하는 능력)과 언어 모델의 강력한 추론 능력(예: 수학과 코딩에서의 최첨단 성능)을 그림 5와 14의 예시에서 볼 수 있습니다. 또한 모델은 입력의 세부 사항을 식별하고, 공간과 시간에 걸쳐 컨텍스트를 집계하며, 시간적으로 관련된 비디오 프레임 시퀀스 및/또는 오디오 입력에 걸쳐 이러한 능력을 적용하는 데 강한 성능을 보여줍니다. 아래 섹션에서는 다양한 모달리티(이미지, 비디오, 오디오)에 걸친 모델의 더 자세한 평가와 함께 이미지 생성 능력과 다양한 모달리티에 걸쳐 정보를 결합하는 능력에 대한 정성적 예시를 제공합니다.

이미지 이해

표 7에서 Gemini Ultra는 광범위한 이미지 이해 벤치마크에서 최첨단 성능을 달성합니다. 자연 이미지와 스캔된 문서에 대한 질문에 답하는 것부터 인포그래픽, 차트 및 과학 다이어그램을 이해하는 것까지 다양한 작업에서 강력한 성능을 보여줍니다. 다른 모델(특히 GPT-4V)의 공개적으로 보고된 결과와 비교할 때, Gemini 모델은 제로샷 평가에서 상당한 차이로 더 우수합니다. 또한 대부분의 작업에서 벤치마크의 훈련 세트에 특별히 미세 조정된 여러 기존 모델을 능가합니다. Gemini 모델의 능력은 MathVista(+3.1%)나 InfographicVQA(+5.2%)와 같은 학술 벤치마크에서 최첨단 기술의 상당한 개선으로 이어집니다.

MMMU(Yue 등, 2023)는 최근 출시된 평가 벤치마크로, 각 학문 분야 내에 여러 과목이 있는 6개 학문 분야에 걸쳐 대학 수준의 지식이 필요한 이미지에 관한 질문으로 구성되어 있습니다. Gemini Ultra는 이 벤치마크에서 최고 점수를 달성하여 최첨단 결과를 5퍼센트 포인트 이상 향상시키고 6개 학문 분야 중 5개에서 이전 최고 결과를 능가함으로써(표 8 참조) 멀티모달 추론 능력을 보여줍니다.

Gemini 모델은 또한 모달리티와 다양한 글로벌 언어에 걸쳐 동시에 작동할 수 있으며, 이미지 이해 작업(예: 아이슬란드어 텍스트가 포함된 이미지)과 생성 작업(예: 광범위한 언어에 대한 이미지 설명 생성) 모두에서 가능합니다. 우리는 Flamingo 평가 프로토콜(Alayrac 등, 2022)을 사용하여 모든 모델에 대해 미세 조정 없이 4-샷 설정에서 Crossmodal-3600(XM-3600) 벤치마크의 선택된 언어 하위 집합에서 이미지 설명을 생성하는 성능을 평가합니다. 표 9에서 볼 수 있듯이, Gemini 모델은 기존 최고 모델인 Google PaLI-X보다 상당한 개선을 달성합니다.

그림 5는 Gemini Ultra의 멀티모달 추론 능력의 예를 보여줍니다. 모델은 사용자가 제공한 서브플롯 세트를 재배열하는 matplotlib 코드를 생성하는 작업을 해결해야 합니다. 모델 출력은 사용자 플롯을 이해하고, 이를 생성하는 데 필요한 코드를 추론하며, 서브플롯을 원하는 위치에 배치하라는 사용자 지시를 따르고, 출력 플롯에 대한 추상적 추론을 성공적으로 수행함을 보여줍니다. 이는 Gemini Ultra의 본질적인 멀티모달리티를 강조하며 이미지와 텍스트의 교차 시퀀스에 걸친 더 복잡한 추론 능력을 암시합니다. 더 많은 정성적 예시는 부록을 참조하시기 바랍니다.

비디오 이해

비디오 입력을 이해하는 것은 유용한 일반적인 에이전트를 향한 중요한 단계입니다. 우리는 훈련에서 보류된 여러 확립된 벤치마크에 걸쳐 비디오 이해 능력을 측정합니다. 이러한 작업은 모델이 시간적으로 관련된 프레임 시퀀스를 이해하고 추론할 수 있는지 측정합니다. 각 비디오 작업에 대해, 우리는 각 비디오 클립에서 16개의 균등하게 간격을 둔 프레임을 샘플링하여 Gemini 모델에 제공합니다. YouTube 비디오 데이터셋(NextQA와 Perception 테스트를 제외한 모든 데이터셋)의 경우, 우리는 2023년 11월에 여전히 공개적으로 사용 가능했던 비디오에서 Gemini 모델을 평가합니다.

표 10은 Gemini Ultra가 다양한 퓨 샷 비디오 캡셔닝 작업과 제로샷 비디오 질문 응답 작업에서 최첨단 성능을 달성함을 보여줍니다. 이는 여러 프레임에 걸친 강력한 시간적 추론 능력을 보여줍니다. 부록의 그림 23은 축구 선수의 공 타격 메커니즘을 이해하고 선수가 게임을 향상시킬 수 있는 방법에 대해 추론하는 비디오를 이해하는 정성적 예시를 제공합니다.

이미지 생성

Gemini 모델은 모델의 이미지 표현 능력을 제한할 수 있는 중간 자연어 설명에 의존하지 않고 네이티브하게 이미지를 출력할 수 있습니다. 이는 모델이 퓨 샷 설정에서 이미지와 텍스트가 교차된 시퀀스를 사용하여 프롬프트에 응답하여 이미지를 생성할 수 있게 합니다. 예를 들어, 사용자는 블로그 게시물이나 웹사이트를 위한 이미지와 텍스트 제안을 설계하도록 모델에 프롬프트할 수 있습니다(부록의 그림 12 참조).

그림 6은 1-샷 설정에서 이미지 생성의 예를 보여줍니다. Gemini Ultra 모델은 사용자가 두 가지 색상(파란색과 노란색)과 귀여운 파란 고양이나 노란 귀를 가진 파란 개를 실로 만드는 이미지 제안을 제공하는 교차된 이미지와 텍스트의 한 예시로 프롬프트됩니다. 그런 다음 모델에 두 가지 새로운 색상(분홍색과 녹색)이 주어지고 이러한 색상을 사용하여 만들 수 있는 두 가지 아이디어에 대해 질문합니다. 모델은 분홍색 씨앗이 있는 귀여운 녹색 아보카도나 분홍색 귀가 있는 녹색 토끼를 실로 만드는 제안과 함께 이미지와 텍스트의 교차 시퀀스를 성공적으로 생성합니다.

오디오 이해

우리는 Gemini Nano-1과 Gemini Pro 모델을 다양한 공개 벤치마크에서 평가하고 Universal Speech Model(USM)(Zhang 등, 2023)과 Whisper(large-v2(Radford 등, 2023) 또는 large-v3(OpenAI, 2023)로 표시)와 비교합니다. 이러한 벤치마크에는 FLEURS(Conneau 등, 2023), VoxPopuli(Wang 등, 2021), Multi-lingual Librispeech(Pratap 등, 2020)와 같은 자동 음성 인식(ASR) 작업과 다양한 언어를 영어로 번역하는 음성 번역 작업인 CoVoST 2(Wang 등, 2020)가 포함됩니다. 또한 내부 벤치마크 YouTube 테스트 세트에 대해 보고합니다. ASR 작업은 단어 오류율(WER) 메트릭을 보고하며, 낮을수록 좋습니다. 번역 작업은 이중 언어 평가 연구(BLEU) 점수를 보고하며, 높을수록 좋습니다. FLEURS는 훈련 데이터와 언어 중복이 있는 62개 언어에 대해 보고됩니다. 네 개의 분할된 언어(중국어, 일본어, 한국어, 태국어)는 Whisper(Radford 등, 2023)와 유사하게 WER 대신 문자 오류율(CER)을 보고합니다.

표 11은 우리의 Gemini Pro 모델이 영어와 다국어 테스트 세트 모두에서 모든 ASR 및 AST 작업에서 USM과 Whisper 모델을 크게 능가함을 나타냅니다. USM과 Whisper에 비해 FLEURS에서 큰 이득이 있음을 주목하세요. 우리 모델은 또한 FLEURS 훈련 데이터셋으로 훈련되었습니다. 그러나 FLEURS 데이터셋 없이 동일한 모델을 훈련하면 WER이 15.8이 되며, 이는 여전히 Whisper보다 우수합니다. Gemini Nano-1 모델도 FLEURS를 제외한 모든 데이터셋에서 USM과 Whisper 모두를 능가합니다. 우리는 아직 오디오에서 Gemini Ultra를 평가하지 않았지만, 모델 규모가 증가함에 따라 더 나은 성능을 기대합니다.

표 12는 USM과 Gemini Pro의 추가 오류 분석을 보여줍니다. 우리는 Gemini Pro가 특히 희귀 단어와 고유 명사에서 더 이해하기 쉬운 응답을 생성한다는 것을 발견했습니다.

모달리티 결합

멀티모달 데모는 종종 단일 모달리티, 주로 이미지와 교차된 텍스트의 조합을 포함합니다. 우리는 오디오와 이미지의 시퀀스를 네이티브하게 처리하는 능력을 보여줍니다. 오믈렛 만들기에 관한 요리 시나리오를 고려해 보세요. 여기서 우리는 오디오와 이미지의 시퀀스로 모델에 프롬프트합니다. 표 13은 오믈렛 요리의 다음 단계에 대해 질문하면서 사진을 제공하는 모델과의 턴별 상호작용을 나타냅니다. 우리는 모델 응답 텍스트가 합리적으로 정확하며, 모델이 오믈렛이 완전히 조리되었는지 평가하기 위해 이미지의 세부 사항을 처리함을 보여줍니다. 웹사이트의 데모를 참조하세요.

사후 훈련 모델

대규모 사전 훈련 이후, 우리는 사전 훈련된 모델 위에 훈련하여 모델의 숙련도를 확장하고 다양한 기능을 가능하게 하는 사후 훈련을 적용합니다. 구체적으로, 전반적인 품질을 향상시키고, 코딩 및 다국어와 같은 목표 기능을 강화하며, 정렬 및 안전 기준이 충족되도록 합니다. 이 섹션에서는 Gemini Apps와 Gemini API 모델 변형의 공통점과 차이점을 강조하면서 사후 훈련에 대한 접근 방식을 논의합니다.

Gemini Apps: Gemini와 Gemini Advanced

Gemini와 Gemini Advanced는 Google의 AI 모델 계열에 직접 접근할 수 있게 해주며, 이는 핵심 사후 훈련된 Gemini Apps 모델과 그 주변 시스템으로 구성됩니다. 이러한 모델은 Gemini 사전 훈련 모델 위에 특수한 사후 훈련을 적용하여 생성됩니다. 현재 Gemini는 Pro 1.0에 접근할 수 있고 Gemini Advanced는 Ultra 1.0에 접근할 수 있습니다. 핵심 모델 외에도, 이 시스템은 모델이 외부 도구(예: Google Flights, Maps, Google Workspace)와 상호 작용하는 방식과 응답을 생성하는 방식(필터링, 순위 지정, 스트리밍)을 결정합니다.

대화형 AI 분야는 여러 가지 과제를 제시합니다.

다중 턴 상호 작용에서 사용자의 요청을 어떻게 이해할 것인가?
응답이 안전하고, 사실에 근거하며, 도움이 되도록 어떻게 보장할 것인가?
모델 외부의 도구를 사용하여 사용자가 작업을 완수하도록 어떻게 도울 것인가?

다음 섹션에서는 이러한 과제에 대한 접근 방식을 논의합니다.

Gemini APIs: Google AI Studio 및 Cloud Vertex AI

개발자 중심의 Gemini API 모델은 대화형 및 비대화형 사용 사례를 모두 지원하도록 설계되었습니다. 이러한 모델은 Google AI Studio와 Cloud Vertex AI를 통해 사용하기 쉬운 API를 통해 제공됩니다. Google AI Studio는 API 키를 사용하여 앱을 빠르게 프로토타이핑하고 출시할 수 있는 무료 웹 기반 개발자 도구입니다. Vertex AI는 개발자가 다양한 도구, 완전 관리형 인프라, 내장된 엔터프라이즈 보안 및 개인 정보 보호 설정으로 Gemini API 모델을 활용할 수 있는 종합적인 AI 플랫폼입니다. Gemini API는 Gemini API 모델을 모든 프로덕션 제품이나 워크플로우에 쉽게 통합할 수 있게 하여, 개발자가 다양한 모달리티에 걸쳐 추론할 수 있는 애플리케이션을 구축할 수 있도록 지원합니다.

사후 훈련 방법 및 데이터

Gemini API 및 Apps 변형을 생성하기 위한 Gemini 모델의 사후 훈련에는 여러 단계가 포함됩니다(그림 7 참조). 모든 단계에서 신중한 데이터 큐레이션이 중요합니다.

첫째, 실제 사용 사례를 대표하는 다양한 프롬프트 세트를 수집합니다. 둘째, 주어진 프롬프트에 대해 모델의 출력이 어떠해야 하는지에 대한 시연 데이터에 대해 지도 학습 미세 조정(SFT)을 적용합니다(Mishra 등, 2021; Ouyang 등, 2022; Wei 등, 2022a). 셋째, 주어진 프롬프트에 대한 다양한 가능한 응답을 수집하고, 이에 대한 피드백 데이터를 수집하여 보상 모델(RM)을 훈련합니다. 마지막으로, 훈련된 RM을 사용하여 인간 선호도와 모델 출력을 더 잘 정렬하기 위해 인간 피드백을 통한 강화 학습(RLHF) 단계(Bai 등, 2022a)를 적용합니다.

다음은 방법에 대한 더 자세한 설명입니다.

(1) 프롬프트 데이터 수집: 프롬프트는 모델에 대한 사용자의 입력입니다. 가장 최근의 사용자 입력뿐만 아니라 이전 사용자-모델 상호 작용도 포함할 수 있습니다. 우리는 목표 프롬프트의 데이터셋을 큐레이션합니다. 이 데이터셋은 시연 및 피드백 데이터 수집의 기초가 되며, 강화 학습 중에 직접 사용됩니다. 단일 턴 및 다중 턴 형식 모두에서 중요한 사용 사례의 다양한 세트를 포함하는 것이 중요합니다. 데이터 소스에는 벤더가 생성한 데이터, 제3자 라이선스 소스, 합성 접근 방식이 포함됩니다.

그림 7: 모델링 개요. 사후 훈련은 인간-AI 피드백을 획득하고 주요 영역에서 지속적으로 개선하기 위해 최적화된 데이터 플라이휠을 활용합니다. 지도 학습 미세 조정, 보상 모델링 및 강화 학습을 위한 데이터 혼합은 모델의 기초가 됩니다.

(2) 시연 데이터에 대한 SFT: SFT는 주어진 프롬프트에 대해 원하는 목표 응답을 출력하도록 모델을 훈련시킵니다. 우리의 시연 데이터 목표 응답은 인간 전문가가 직접 작성하거나, 모델에 의해 생성되고 일부 경우에는 인간에 의해 수정되거나 검토될 수 있습니다. 또한, 우리는 데이터 분석 도구와 휴리스틱을 사용하여 기능, 사용 사례 및 의미론적 클러스터 전반에 걸쳐 높은 데이터 다양성을 보장합니다.

(3) 피드백 데이터에 대한 RM 훈련: 우리는 또한 인간 평가자가 후보 응답에 대한 상대적 선호도와 주어진 프롬프트에 대한 개별 응답에 관한 피드백을 제공하는 피드백 데이터를 수집합니다. 많은 기능에 대해, 이상적인 응답을 시연하는 것보다 상대적 선호도를 평가하는 것이 더 쉬운 작업입니다. 피드백 데이터는 창의성, 안전성, 사실성, 기타 기능 및 기타 목표 기준에 걸쳐 수집됩니다. 우리는 결과적인 인간 피드백 데이터의 유용성이 프롬프트 선택과 후보 응답을 생성하는 데 사용된 샘플링 전략에 크게 의존한다는 것을 발견했습니다. 우리는 이 데이터를 사용하여 인간 선호도와 최대한 일치하는 보상을 출력하는 RM을 훈련시킵니다.

(4) RLHF: 인간 피드백을 통한 강화 학습(RLHF)을 모델에 적용하면 SFT만으로도 추가적인 이득을 얻을 수 있습니다. 우리의 접근 방식은 RL이 지속적으로 RM의 경계를 밀어붙이고, RM은 평가 및 데이터 수집을 통해 지속적으로 개선되는 반복적인 프로세스를 만들어 두 가지 모두의 점진적인 개선으로 이어집니다.

평가

모델 출력에 대한 인간 선호도 평가는 성능을 측정하기 위한 중요한 신호를 제공합니다. 개발 프로세스의 일환으로, 우리는 목표 기능 전반에 걸쳐 인간 평가를 광범위하게 수행합니다. 인간 평가는 인간 평가자가 동일한 프롬프트에 대한 두 모델의 응답을 판단하는 나란히 블라인드 평가, 특정 기능에 대한 단일 응답 평가, 온라인 테스트로 구현됩니다. 또한, 우리는 개발을 안내하고 온라인 성능을 지속적으로 모니터링하기 위해 인간 선호도를 충실히 모방하는 자동 평가를 위한 모델을 구축합니다.

모델 기능

위에서 설명한 일반적인 사후 훈련 외에도, 우리는 핵심 기능 세트를 개선하기 위한 기술을 적용합니다. 이러한 기능은 현재 사용자 요구와 연구에서 영감을 받은 미래 애플리케이션에서 영감을 받은 다양한 사용 사례를 다룹니다. 우리는 이전 섹션에서 자세히 설명하지 않은 기능 예시를 아래에 설명합니다. 사후 훈련 레시피는 창의성, 사실성, 안전성 등 여러 목표의 균형을 맞추도록 신중하게 설계되었습니다(Bai 등, 2022b; Thoppilan 등, 2022). 우리는 특히 안전성과 정렬에 중점을 두고 있으며, 따라서 이를 추가적인 전용 섹션에서 다룹니다.

지시 따르기

사용자의 프롬프트를 정확하게 따르는 것은 LLM의 기본적인 기능으로, 특히 이러한 모델이 더 정교해지고 점점 더 복잡한 사용자 프롬프트가 제시됨에 따라 중요합니다. 사용자 프롬프트는 세분성, 구체성 및 요구 사항(예: 내용, 형식, 길이)에 따라 다양합니다. 개별 지시는 모호하거나, 선택적이거나, 심지어 만족시키기 불가능하거나 바람직하지 않을 수도 있습니다(He 등, 2023; Xu 등, 2023).

우리는 다양한 지시 따르기 카테고리에 대한 데이터를 수집하여 Gemini Apps와 Gemini API 모델의 지시 따르기(IF) 능력을 향상시킵니다. 단어 수와 같이 프로그래밍 방식으로 검증할 수 있는 지시의 경우, 우리는 프롬프팅과 응답 편집을 통해 합성 데이터를 생성하여 이러한 지시가 만족되도록 합니다.

복잡한 프롬프트 평가: 우리는 각 지시가 얼마나 잘 준수되는지 평가하는 세밀한 평가 방법을 사용하여 여러 지시를 포함하는 복잡한 프롬프트에 대한 성능을 조사합니다. 인간 평가자에게 프롬프트-응답 쌍과 프롬프트에 포함된 개별 (하위) 지시 목록이 제시됩니다. 각 프롬프트는 하나에서 수십 개의 개별 지시를 가질 수 있으며, 주석자는 각 지시가 응답에 의해 따라졌는지(또는 그렇지 않은지) 결정하는 작업을 맡습니다.

표 14는 LLM에게 도전적이도록 설계된 다양한 범위의 지시를 포함하는 다양한 복잡성의 지시가 있는 내부 데이터셋에 대한 결과를 보고합니다. 우리는 두 가지 메트릭을 보고합니다. 지시별 정확도(평가 세트에서 따라진 하위 지시의 비율)와 전체 응답 정확도(모든 하위 지시가 따라진 평가 세트 프롬프트의 비율).

	사후 훈련된 PaLM 2	Gemini (Pro 포함)	Gemini Advanced (Ultra 포함)
지시별 정확도	59.5±3.0%	77.8±2.0%	87.4±1.4%
전체 응답 정확도	25.5±3.3%	38.5±3.6%	54.1±3.7%

표 14: 복잡한 프롬프트 지시 따르기 내부 벤치마크에 대한 Gemini의 성능. Gemini Advanced(Ultra 포함)는 평균 지시별 정확도가 거의 90%에 도달하여, Gemini(Pro 포함)와 사후 훈련된 PaLM 2 모델에 비해 상당한 개선을 보여줍니다. 우리는 따라지지 않은 하위 지시가 응답 전반에 걸쳐 잘 분포되어 있음을 발견했습니다. 결과적으로 Gemini Advanced의 전체 응답 정확도는 약 54%로 더 낮습니다. 이는 모델이 모든 지시를 완전히 만족시키는 데 더 많은 여지가 있음을 나타냅니다.

도구 사용

LLM을 훈련시켜 도구를 사용하게 함으로써, 우리는 LLM 기능을 내부 지식을 넘어 크게 확장합니다. 우리는 Gemini Apps와 Gemini API 모델 모두에 대한 도구 사용을 코드 생성 문제로 취급하여, 기본 모델의 기존 강력한 코딩 기능을 활용합니다. 모든 도구 호출은 도구 호출이 호출되는 코드 블록으로 표현됩니다. 이 프로세스를 통해 모델은 각 코드 블록에서 여러 도구를 구성할 수 있을 뿐만 아니라 도구 실행 결과를 관찰하고 반응할 수 있습니다.

추론 시, 사용자 프롬프트에 대한 응답을 생성하기 위해, 우리 시스템은 그림 8에 표시된 루프를 실행하며, 여기서 LLM에서의 샘플링과 도구 코드 실행이 함께 작동하여 최종 응답을 생성합니다.

그림 8: Gemini 도구 사용 제어 루프. 이 이미지는 프롬프트를 실행하고 응답을 제공하는 과정을 설명하는 흐름도를 보여줍니다. 주요 구성 요소에는 프롬프트, 언어 모델(LLM)에서의 샘플링, 샘플에 코드 블록이 포함되어 있는지 확인, 그리고 실행 결과를 다시 컨텍스트에 넣거나 직접 응답하는 것이 포함됩니다. 주요 기술적 구성 요소는 LLM 샘플링과 코드 블록 존재 여부에 따른 조건부 로직으로, 이를 통해 시스템이 다양한 유형의 프롬프트를 처리하고 적절한 응답을 제공할 수 있습니다.

Gemini Apps 모델: Gemini는 Gemini Extensions를 통해 Google Workspace, Google Maps, YouTube, Google Flights, Google Hotels를 포함한 다양한 도구를 활용합니다. 이러한 도구 사용 기능을 통해 Gemini가 Gmail, Docs, Slides, Sheets 등의 일부로 통합될 수도 있습니다. 우리는 Gemini 모델을 향상시키고 Gemini 모델을 추가 제품에 통합하기 위해 추가적인 도구 사용 기능을 제공하는 것을 목표로 하고 있습니다.

우리는 이러한 확장 기능에 접근할 수 있을 때 Gemini 성능을 평가하기 위한 내부 벤치마크를 만들었습니다. 이 벤치마크는 여행 계획 및 비디오 발견과 같은 도메인에서 인간 선호도를 측정합니다. 우리는 도구를 갖춘 모델이 이 세트에서 도구가 없는 모델보다 78%의 경우에 선호된다는 것을 발견했습니다(동점 제외).

	수학적 추론	사실성 및 지식 검색
	GSM8K Cobbe 등 (2021)	MATH Hendrycks 등 (2021b)	NQ Kwiatkowski 등 (2019b)	Realtime QA Kasai 등 (2022a)
Gemini API Pro with tools	80.1%	41.8%	68.0%	70.8%
Gemini API Pro without tools	69.7%	30.7%	59.0%	39.2%

Gemini API 모델: 우리는 Gemini API 모델을 미세 조정하는 것이 모델에게 도구 사용 행동을 가르치는 데 매우 효과적이라는 것을 발견했습니다. 또한, 모델을 훈련시켜 프로그래밍과 검색을 도구로 사용하면 다양한 학술 벤치마크에서 성능이 향상됩니다. 표 15에서, 우리는 도구 사용 데이터로 미세 조정된 초기 버전의 Gemini API Pro와 도구를 사용하지 않는 동등한 모델을 비교합니다.

표 15: Gemini API 도구 사용 모델과 도구를 사용하지 않는 비교 가능한 모델 간의 비교. 도구 없는 Gemini API Pro는 도구 사용 데이터 없이 훈련된 초기 버전의 Pro 모델입니다. 도구가 있는 Gemini API Pro는 도구 사용 데이터로 미세 조정된 동일한 모델입니다.

다국어성

다국어성은 Gemini 모델이 다양한 언어를 효과적으로 지원하도록 하는 데 중요합니다. 우리는 아래에서 Gemini Apps와 Gemini API 모델에 대한 주요 접근 방식을 각각 논의합니다.

Gemini Apps 모델: Gemini를 영어에서 40개 이상의 언어로 확장하는 것은 데이터 품질에 연구 과제를 부과했습니다. 우리는 풍부한 고품질 영어 데이터를 원어민 문화로 현지화하여 활용합니다(예: “president of the United States” -> “日本の首相”). 표 16은 이전 사후 훈련 레시피와 PaLM 2를 기반으로 한 Bard와 비교하여 5개 언어에서 Gemini(Pro 포함)의 성능을 보여줍니다. 모델 A와 모델 B 사이의 나란히 비교의 경우, 우리는 SxS 점수라고 불리는 메트릭을 계산합니다. 각 평가는 0을 중심으로 한 서수 값으로 변환됩니다. A를 선호하는 평가는 양수이고 B를 선호하는 평가는 -1.5에서 1.5 사이의 척도에서 음수입니다. 변환된 값들은 SxS 점수를 반환하기 위해 평균화됩니다. 직관적으로, 양의 SxS 점수는 모델 A가 모델 B보다 선호되는 정도를 나타냅니다. 여기서, 우리는 모든 다섯 언어에서 품질이 0.1 SxS 점수 이상 향상되었음을 발견합니다. Gemini Pro의 코딩 및 추론 이득은 언어 전반에 걸쳐 보존됩니다.

언어	품질 SxS	코딩 MBPP Pass@1 Austin 등 (2021)	추론 MMLU Hendrycks 등 (2021a)
ja-JP	+0.14	+22.2%	+3.6%
pt-BR	+0.17	+23.2%	+5.2%
de-DE	+0.1	+21.4%	+7.5%
es-419	+0.12	+22.8%	+9.3%
it-IT	+0.13	+13.8%	+7.5%

표 16: 이전 사후 훈련 레시피와 PaLM 2를 기반으로 한 Gemini와 비교한 Gemini(Pro 포함)의 다국어 성능.

Gemini API 모델: Gemini Apps 모델과 유사하게, 우리는 Gemini API 모델을 추가적인 다국어 사후 훈련 데이터로 훈련시켜 원래 영어 모델을 다양한 언어에서 사용하기 위해 효과적으로 적응시킵니다. 우리는 인간이 생성한 비영어 프롬프트-응답 쌍과 자동으로 번역된 쌍 모두를 실험합니다. 후자의 경우, 우리는 번역을 통해 풍부한 고품질 영어 시연 데이터를 활용합니다. 우리는 번역 가능성 필터링과 인간에 의한 응답 평가를 통해 이러한 번역된 데이터의 품질을 보장합니다.

번역 가능성 필터링: 모든 프롬프트-응답 쌍이 자동으로 번역될 때 의미가 통하는 것은 아니며, 대신 비용이 많이 드는 현지화가 필요할 수 있습니다. 이러한 유형의 예시 프롬프트(공간 제약으로 응답은 생략)는 다음과 같습니다. • (엄격한 단어 요구 사항) 세계 평화에 관한 1000단어 에세이를 작성하세요. • (너무 영어 중심적) 사과에 관한 약강 오보격 시를 작성하세요. • (너무 라틴 스크립트 중심적) 1개의 E, 2개의 A, 1개의 U가 있는 단어는 무엇인가요?

번역 품질 검증: 각 번역된 프롬프트-응답 쌍은 최소 3명의 인간 평가자에 의해 번역 품질에 대해 평가되었으며, 평가자의 과반수가 정확하다고 평가한 경우 최종 혼합에 유지되었습니다.

5.1.4절에서는 사후 훈련된 Gemini API 모델의 다국어 능력에 대한 평가를 보고합니다.

멀티모달 비전

멀티모달 사후 훈련은 다양한 유용한 애플리케이션을 위해 본질적으로 멀티모달인 Gemini 모델의 능력을 향상시킵니다. 다음에서, 우리는 이미지 이해 능력이 Gemini Apps와 Gemini API 모델에 어떻게 통합되는지 논의합니다. 이 평가를 위해, 우리는 수직적으로 정의된 여러 멀티모달 사용 사례에 걸쳐 텍스트 데이터와 전문가가 큐레이션한 이미지-텍스트 데이터의 혼합물로 이러한 Gemini 모델 변형을 모두 추가로 훈련시킵니다.

Gemini Apps 모델: 우리는 사전 훈련된 Gemini 모델을 텍스트 전용 및 이미지-텍스트 데이터의 혼합물로 미세 조정하여 Gemini와 Gemini Advanced에 이미지 이해 능력을 부여합니다. 텍스트와 멀티모달 데이터의 신중한 균형은 모델이 텍스트 전용 상호 작용의 품질에 부정적인 영향을 미치지 않으면서 강력한 이미지 이해를 개발하도록 보장합니다. 우리 모델을 평가하기 위해, 우리는 다양한 카테고리와 난이도 수준에 걸쳐 있는 인간이 큐레이션하고 합성한 이미지-텍스트 프롬프트와 응답의 데이터셋을 컴파일합니다. 이 데이터셋은 모델 비교 및 선택을 위한 인간 평가를 용이하게 합니다.

우리는 이 이미지-텍스트 데이터를 도입하는 것이 텍스트 전용 작업에서 Gemini Apps 모델 품질을 보존한다는 것을 발견했으며, 이 데이터로 훈련된 Gemini Apps Pro 모델과 텍스트 데이터만으로 훈련된 동등한 모델 간의 텍스트 전용 작업에서 SxS 점수는 +0.01±0.01입니다. 또한, RLHF를 통한 사후 훈련은 멀티모달 작업에서의 성능을 향상시키며, SFT & RLHF로 사후 훈련된 Gemini Apps Pro 모델과 SFT만으로 훈련된 모델 간의 이미지 이해 작업에서 SxS 점수는 +0.223±0.06입니다.

Gemini API 모델: 우리는 표준 벤치마크 시리즈에서 사전 훈련된 모델과 사후 훈련된 Gemini API Vision 모델 모두의 성능을 추적하여 Gemini API 모델의 멀티모달 비전 성능에 대한 SFT를 통한 사후 훈련의 영향을 평가합니다. 이러한 사후 훈련된 결과는 이미 표 7에 제시되었으며, 표 17에서는 사전 훈련된 Gemini API 모델과 사후 훈련된 모델 간의 성능 차이를 추가로 보고합니다.

	Gemini Ultra 사전 훈련만 0-샷 (픽셀만)	Gemini API Ultra 0-샷 (픽셀만)	Gemini Ultra 사전-사후 훈련 개선
MMMU (val) 다학제 대학 수준 문제 Yue 등, 2023	n/a	59.4% pass@1 62.4% Maj1@32	n/a
TextVQA (val) 자연 이미지의 텍스트 읽기 Singh 등, 2019	81.4%	82.3%	+0.9%
DocVQA (test) 문서 이해 Mathew 등, 2021	90.1%	90.9%	+0.8%
ChartQA (test) 차트 이해 Masry 등, 2022	80.8%	80.8%	0.0%
InfographicVQA (test) 인포그래픽 이해 Mathew 등, 2022	77.9%	80.3%	+2.4%
MathVista (testmini) 수학적 추론 Lu 등, 2023	n/a	53.0%	n/a
AI2D (test) 과학 다이어그램 Kembhavi 등, 2016	76.6%	79.5%	+2.9%
VQAv2 (test-dev) 자연 이미지 이해 Goyal 등, 2017	74.5%	77.8%	+3.3%

표 17: 사후 훈련된 모델 이미지 이해. 사후 훈련은 기본 사전 훈련된 모델에 비해 Gemini API Ultra의 이미지 이해 능력을 향상시킵니다. 이러한 벤치마크에서 Gemini API Ultra와 다른 모델의 비교는 표 7에 제시되어 있습니다.

결과는 사전 훈련된 모델이 이미 이러한 벤치마크가 나타내는 능력에서 높은 성능을 보이며, 이는 이전 관찰과 일치합니다. 그러나, Gemini API Vision 모델에 사용된 사후 훈련 SFT 단계는 여러 벤치마크(InfographicVQA, AI2D, VQAv2)에서 성능을 향상시키는 데 성공했으며, 이는 모델의 향상된 지시 따르기 능력이 모델 출력 스타일을 황금 참조와 일치시키는 데 성공했기 때문일 가능성이 높습니다.

코딩

기본 모델의 강력한 코딩 벤치마크 성능에도 불구하고, 사후 훈련 데이터는 여전히 코드 품질과 코드 정확성 모두에 상당한 향상을 제공합니다. 이는 코딩 사용 사례에 대한 고품질 시연 데이터와 피드백 데이터의 이점을 강조합니다. Gemini Apps와 Gemini API 모델은 이러한 데이터를 수집하기 위해 인간과 합성 접근 방식의 조합을 사용합니다.

우리는 코드 사용 사례와 언어 전반에 걸쳐 분포된 내부적으로 큐레이션된 프롬프트 세트에서 Gemini Apps 모델의 코딩 성능을 평가합니다. 표 18은 SxS 점수를 보고하며, 여기서 Gemini(Pro 포함)는 이전 사후 훈련 레시피와 PaLM 2를 기반으로 한 Bard에 비해 상당히 개선되었습니다. Gemini Advanced(Ultra 포함)는 Gemini(Pro 포함)보다 더욱 개선되었습니다.

측면 A	측면 B	SxS 점수
Gemini (Pro 포함)	Bard (PaLM 2, 2023년 9월)	0.19±0.03
Gemini Advanced (Ultra 포함)	Gemini (Pro 포함)	0.13± 0.02

표 18: 내부 코딩 벤치마크에서 Gemini 모델의 SxS 비교.

사후 훈련된 Gemini API 모델의 코딩 능력에 대해서는, 표 2에서 학술 벤치마크 성능을 보고합니다.

논의 및 결론

본 논문에서는 텍스트, 코드, 이미지, 오디오 및 비디오에 걸친 멀티모달 모델 능력을 향상시키는 새로운 모델 계열인 Gemini를 소개했습니다. 가장 뛰어난 사전 훈련 모델인 Gemini Ultra와 함께 사후 훈련된 Gemini Apps 및 Gemini API 변형 모델들은 전반적으로 상당한 발전을 이루었습니다. 자연어 영역에서는 데이터와 모델 훈련의 신중한 개발을 통한 성능 향상이 지속적으로 품질 개선을 가져왔으며, 여러 벤치마크에서 새로운 최첨단 성능을 달성했습니다. 특히 Gemini Ultra는 2020년 처음 발표된 이후 대규모 언어 모델(LLM)의 진전을 측정하는 사실상의 기준이 된 시험 벤치마크인 MMLU에서 90.0%의 점수로 인간 전문가 수준의 성능을 능가했습니다.

멀티모달 영역에서는 Gemini Ultra가 작업별 수정이나 미세 조정 없이도 대부분의 이미지 이해, 비디오 이해 및 오디오 이해 벤치마크에서 새로운 최첨단 성능을 달성했습니다. 특히 Gemini Ultra의 멀티모달 추론 능력은 대학 수준의 주제 지식과 신중한 추론이 필요한 이미지에 관한 질문으로 구성된 최근의 MMMU 벤치마크(Yue 등, 2023)에서 최첨단 성능을 보여주었습니다.

벤치마크에서의 최첨단 결과를 넘어, 연구진이 가장 흥미롭게 생각하는 것은 Gemini 모델이 가능하게 하는 새로운 사용 사례입니다. 차트나 인포그래픽과 같은 복잡한 이미지를 파싱하고, 이미지, 오디오 및 텍스트가 교차된 시퀀스에 대해 추론하며, 응답으로 텍스트와 이미지를 교차하여 생성하는 Gemini 모델의 새로운 능력은 다양한 새로운 애플리케이션을 가능하게 합니다. 보고서와 부록 전체에 걸쳐 보여진 그림들에서 알 수 있듯이, Gemini 모델은 교육, 일상적인 문제 해결, 다국어 커뮤니케이션, 정보 요약, 추출 및 창의성과 같은 영역에서 새로운 접근 방식을 가능하게 할 수 있습니다. 연구진은 이러한 모델의 사용자들이 연구진이 자체 조사에서 겨우 표면만 긁은 다양한 유익한 새로운 용도를 발견할 것으로 기대합니다.

인상적인 능력에도 불구하고, LLM 사용에는 여전히 한계가 있다는 점을 언급해야 합니다. 모델 출력이 더 신뢰할 수 있고 검증 가능하도록 하기 위해 LLM이 생성하는 “환각(hallucinations)”에 대한 지속적인 연구 및 개발이 필요합니다. 또한 LLM은 시험 벤치마크에서 인상적인 성능을 달성함에도 불구하고 인과적 이해, 논리적 추론 및 반사실적 추론과 같은 고수준 추론 능력이 필요한 작업에서 어려움을 겪습니다. 이는 현재 최첨단 LLM이 많은 벤치마크를 포화시키면서 모델의 진정한 이해도를 측정하기 위한 더 도전적이고 강력한 평가의 필요성을 강조합니다.

Gemini 모델 계열은 지능을 해결하고, 과학을 발전시키며, 인류에게 혜택을 주는 연구진의 사명을 향한 추가적인 단계이며, 연구진은 이러한 모델이 Google의 동료들과 그 외 사람들에 의해 어떻게 사용될지 기대하고 있습니다. 이 모델들은 Google이 10년 이상 추구해 온 분야인 기계 학습, 데이터, 인프라 및 책임감 있는 개발에서의 많은 혁신을 기반으로 합니다. 이 보고서에서 소개된 모델들은 향후 더 광범위한 목표인 많은 모달리티에 걸쳐 광범위한 일반화 능력을 갖춘 대규모 모듈화 시스템을 개발하기 위한 강력한 기반을 제공합니다.

참고 문헌

본 논문은 다양한 연구 분야에서 중요한 기여를 한 많은 선행 연구를 기반으로 합니다. 주요 참고 문헌으로는 멀티모달 모델링 분야에서 Flamingo(Alayrac 등, 2022)와 같은 시각적 언어 모델, PaLM 2(Anil 등, 2023)와 같은 대규모 언어 모델, 그리고 Universal Speech Model(Zhang 등, 2023)과 같은 오디오 처리 모델이 있습니다.

또한 트랜스포머 아키텍처(Vaswani 등, 2017)와 같은 기본적인 모델 아키텍처, JAX(Bradbury 등, 2018)와 같은 프로그래밍 프레임워크, 그리고 Pathways(Barham 등, 2022)와 같은 분산 시스템에 관한 연구도 중요한 기반을 제공했습니다.

추론 능력 향상을 위한 체인 오브 소트(Wei 등, 2022b)와 자기 일관성(Wang 등, 2022) 같은 기법들도 Gemini 모델의 성능 향상에 중요한 역할을 했습니다. 체인 오브 소트는 모델이 복잡한 문제를 해결할 때 중간 추론 단계를 명시적으로 생성하도록 유도하는 프롬프팅 기법으로, 특히 수학적 추론과 같은 복잡한 작업에서 효과적입니다. 자기 일관성은 모델에서 여러 추론 경로를 샘플링한 다음 가장 일관된 답변을 선택하는 디코딩 전략으로, 추론 성능을 더욱 향상시킵니다.

안전성과 정렬에 관한 연구(Bai 등, 2022b; Weidinger 등, 2021)는 Gemini 모델이 책임감 있게 배포될 수 있도록 하는 데 중요한 역할을 했습니다. 이러한 연구들은 대규모 언어 모델의 잠재적 위험을 식별하고 완화하기 위한 프레임워크를 제공합니다.

멀티모달 비전 분야에서는 PaLI(Chen 등, 2022)와 PaLI-X(Chen 등, 2023)와 같은 연구가 비전과 언어 구성 요소를 균형 있게 확장하는 접근 방식을 제시했으며, 이는 Gemini의 멀티모달 아키텍처 설계에 영향을 미쳤습니다. 특히 PaLI-X는 비전과 언어 구성 요소를 함께 확장하는 것이 다양한 비전-언어 작업에서 상당한 성능 향상을 가져온다는 것을 보여주었습니다.

비디오 이해 분야에서는 Video-LLaVA(Lin 등, 2023)와 같은 연구가 이미지와 비디오를 위한 통합된 시각적 표현을 학습하는 접근 방식을 제시했으며, 이는 Gemini의 비디오 처리 능력 개발에 참고가 되었습니다.

수학적 추론 능력 평가를 위한 MathVista(Lu 등, 2023)와 같은 벤치마크는 Gemini 모델의 시각적 맥락에서의 수학적 추론 능력을 평가하는 데 중요한 역할을 했습니다.

마지막으로, Llama 2(Touvron 등, 2023b)와 같은 오픈 소스 모델은 안전성과 유용성에 중점을 둔 대규모 언어 모델 개발에 대한 접근 방식을 제시했으며, 이는 Gemini 모델의 사후 훈련 과정에 영향을 미쳤습니다.

이러한 다양한 연구들은 Gemini 모델 계열의 개발에 중요한 기반을 제공했으며, 텍스트, 이미지, 오디오 및 비디오에 걸친 강력한 멀티모달 능력을 갖춘 모델을 만드는 데 기여했습니다.

부록

10.1. Gemini Ultra 모델 카드

모델 요약

모델 아키텍처

Gemini V1.0은 새로운 최첨단 언어 모델 계열로, 파라미터 수에 따라 Nano, Pro 및 Ultra라는 변형을 포함하며 디코더 전용 트랜스포머 아키텍처(Vaswani 등, 2017)를 기반으로 합니다. 모델들은 32K 컨텍스트 길이를 지원하도록 훈련되었으며, 멀티-쿼리 어텐션(Shazeer, 2019)과 같은 효율적인 어텐션 메커니즘을 활용합니다. Gemini는 각 모달리티에서의 뛰어난 이해력과 추론 성능과 함께 모달리티 전반에 걸친 강력한 일반적인 능력을 구축하기 위해 이미지, 오디오, 비디오 및 텍스트 데이터에 걸쳐 공동으로 훈련되었습니다. 이 모델 카드에 설명된 사후 훈련된 모델은 Gemini Ultra 사전 훈련 모델을 기반으로 구축된 Gemini API 및 Gemini Apps 모델 변형입니다. 사후 훈련 과정에서 RLHF를 위한 다목적 보상 모델 훈련을 지원하기 위해 추가적인 아키텍처 수정이 이루어졌습니다.

입력

텍스트(예: 질문, 프롬프트, 요약할 문서), 이미지, 비디오, 오디오 파일.

출력

입력에 대한 응답으로 생성된 텍스트(예: 질문에 대한 답변, 여러 문서의 요약, 문서/비디오 비교).

사용

응용

Gemini는 언어 모델에 대한 연구를 가속화하고, Google 제품 내 기능의 구성 요소로 사용되며, Gemini App 및 Search Generative Experience와 같은 선별된 애플리케이션의 구성 요소로 사용되도록 설계되었습니다. Gemini Ultra를 기반으로 구축된 서비스 및 제품은 안전 정책과 관련된 추가 프로세스 및 기술적 안전장치와 함께 Google Cloud Vertex API 및 Google Labs를 통해 외부 개발자에게도 제공됩니다.

알려진 주의사항

Gemini는 다운스트림 사용에 특정한 안전 및 공정성 우려에 대한 사전 평가 및 완화 없이 일반 목적 서비스나 제품의 일부로, 또는 특정 다운스트림 애플리케이션 내에서 제공되어서는 안 됩니다.

구현 프레임워크

하드웨어 및 소프트웨어

하드웨어: 훈련은 TPUv4 및 TPUv5e(Jouppi 등, 2020, 2023)에서 수행되었습니다. 소프트웨어: JAX(Bradbury 등, 2018), ML Pathways(Dean, 2021). JAX는 연구자들이 TPU를 포함한 최신 세대의 하드웨어를 활용하여 대규모 모델을 더 빠르고 효율적으로 훈련할 수 있게 합니다. ML Pathways는 여러 작업에 걸쳐 일반화할 수 있는 인공지능 시스템을 구축하기 위한 Google의 노력을 지원하는 인프라 소프트웨어입니다. 이는 Gemini V1.0 모델과 같은 대규모 언어 모델을 포함한 파운데이션 모델에 특히 적합합니다. JAX와 ML Pathways는 3절에서 설명된 대로 함께 사용됩니다. JAX와 ML Pathways의 ‘단일 컨트롤러’ 프로그래밍 모델은 단일 Python 프로세스가 전체 훈련 실행을 조율할 수 있게 하여 개발 워크플로우를 크게 단순화합니다.

컴퓨팅 요구사항

보고되지 않음.

모델 특성

모델 초기화

초기 사전 훈련은 무작위 초기화를 사용했습니다. 사후 훈련은 사전 훈련 후반 단계에서 얻은 체크포인트에서 초기화되었습니다. 이러한 체크포인트는 지도 학습 미세 조정을 사용하여 미세 조정되었으며, 이후 보상 모델 훈련 및 RLHF를 초기화하는 데 사용되었습니다.

모델 상태

이것은 오프라인 데이터셋에서 훈련된 정적 모델입니다.

모델 통계

보고되지 않음.

데이터 개요

훈련 데이터셋

Gemini 모델은 다중 모달 및 다국어 데이터셋에서 훈련됩니다. 사전 훈련 데이터셋은 웹 문서, 책, 코드 데이터를 사용하며, 이미지, 오디오, 비디오 데이터도 포함합니다. 자세한 내용은 4절(사전 훈련 데이터셋)을 참조하세요.

평가 데이터셋

우리는 사전 및 사후 훈련된 Gemini Ultra 모델을 일련의 외부 LLM 및 이전 최고 모델인 PaLM 2와 비교하여 추론, 독해력, STEM 및 코딩을 다루는 텍스트 기반 학술 벤치마크에서 평가합니다. 또한 Gemini 모델을 네 가지 다른 멀티모달 능력에서 평가합니다. VQAv2와 같은 캡셔닝이나 질문-답변 작업을 사용한 고수준 객체 인식; TextVQA 및 DocVQA와 같은 작업을 사용한 저수준 세부 사항을 인식하는 세밀한 전사; ChartQA 및 InfographicVQA 작업을 사용한 입력 레이아웃의 공간적 이해가 필요한 차트 이해; Ai2D, MathVista 및 MMMU와 같은 작업을 사용한 멀티모달 추론. 자세한 내용은 5절(평가)을 참조하세요.

사후 훈련 데이터셋

사후 훈련을 위해, 우리는 먼저 실제 사용 사례를 대표하는 다양한 프롬프트 세트를 수집합니다. 그런 다음 지도 학습 미세 조정을 위해 주어진 프롬프트에 대해 모델의 출력이 어떠해야 하는지에 대한 시연 데이터를 수집합니다. 또한 주어진 프롬프트에 대한 다양한 가능한 응답을 수집하고, 이에 대한 피드백 데이터를 수집하여 보상 모델을 훈련합니다. 자세한 내용은 6.3절(사후 훈련 방법 및 데이터)을 참조하세요.

평가 결과

벤치마크 정보

5절(평가)을 참조하세요.

평가 결과

5절(평가) 및 6.4절(사후 훈련 인간 평가)을 참조하세요.

모델 사용 및 제한 사항

민감한 사용

Gemini 모델과 관련된 위험 및 민감한 사용에 대한 분석은 7.1절(영향 평가)을 참조하세요.

알려진 제한 사항

Gemini 모델은 7.1절(영향 평가)에 설명된 제한 사항을 보일 수 있습니다. Gemini 모델은 제안된 다운스트림 애플리케이션에서 잠재적 해악에 대한 추가 분석 없이 다운스트림 애플리케이션에 사용해서는 안 됩니다.

윤리적 고려 사항 및 위험

Gemini V1.0 모델의 잠재적 위험 및 영향에 대한 성찰은 7절(책임감 있는 배포)에서 찾을 수 있습니다. 다양한 위험에 대한 평가 세부 사항은 7.4절(안전 평가)을 참조하세요.

10.2. MMLU 벤치마크에서의 체인 오브 소트 비교

이 섹션에서는 MMLU에서 여러 체인 오브 소트 접근 방식을 비교하고 그 결과를 논의합니다. 우리는 모델이 k개의 체인 오브 소트 샘플을 생성하고, 모델이 임계값 이상으로 확신하는 경우 다수결 투표를 선택하며, 그렇지 않은 경우 탐욕적 샘플 선택으로 돌아가는 새로운 접근 방식을 제안했습니다. 임계값은 각 모델의 검증 분할 성능에 기반하여 최적화됩니다. 제안된 접근 방식은 불확실성 라우팅 체인 오브 소트라고 합니다. 이 접근 방식 뒤의 직관은 모델이 명백하게 일관성이 없을 때 체인 오브 소트 샘플이 최대 가능성 결정에 비해 성능을 저하시킬 수 있다는 것입니다.

그림 9에서 우리는 Gemini Ultra와 GPT-4 모두에서 제안된 접근 방식의 이득을 비교합니다. Gemini Ultra는 체인 오브 소트 샘플만 사용하는 것보다 이 접근 방식에서 더 많은 이점을 얻는 것으로 나타났습니다. GPT-4의 성능은 탐욕적 샘플링의 84.2%에서 32개 샘플을 사용한 불확실성 라우팅 체인 오브 소트 접근 방식으로 87.3%로 향상되지만, 이미 32개의 체인 오브 소트 샘플만 사용해도 이러한 이득을 달성합니다. 반면, Gemini Ultra는 탐욕적 샘플링의 84.0%에서 32개 샘플을 사용한 불확실성 라우팅 체인 오브 소트 접근 방식으로 90.0%로 성능이 크게 향상되는 반면, 32개의 체인 오브 소트 샘플만 사용하면 85.0%로 약간만 향상됩니다.

그림 9: MMLU에서의 불확실성 라우팅을 통한 체인 오브 소트. 이 그림은 GPT-4(gpt-4-0613)와 Gemini Ultra 모델의 두 가지 다른 평가 작업에서의 성능을 비교합니다. Score Eval과 Chain-of-Thought@32. 시각화는 Gemini Ultra 모델이 두 작업 모두에서 GPT-4보다 우수한 성능을 보이며, 각각 83.96과 84.99의 더 높은 점수를 달성함을 보여줍니다. 결과에는 또한 Gemini Ultra의 Chain-of-Thought@32(불확실성 라우팅) 메트릭이 포함되어 있으며, 이는 90.04에 도달하여 이 작업에서 모델의 강력한 성능을 나타냅니다.

10.3. 능력 및 벤치마킹 작업

우리는 텍스트, 이미지, 오디오 및 비디오에 걸쳐 Gemini 모델을 평가하기 위해 50개 이상의 벤치마크를 종합적인 하네스로 사용합니다. 여기서는 텍스트 이해 및 생성의 여섯 가지 다른 능력에 대한 벤치마킹 작업의 상세한 목록을 제공합니다. 사실성, 긴 컨텍스트, 수학/과학, 추론, 요약 및 다국어성. 또한 이미지 이해, 비디오 이해 및 오디오 이해 작업에 사용된 벤치마크도 열거합니다.

• 사실성: 우리는 5개의 벤치마크를 사용합니다. BoolQ(Clark 등, 2019), NaturalQuestions-Closed(Kwiatkowski 등, 2019a), NaturalQuestions-Retrieved(Kwiatkowski 등, 2019a), RealTimeQA(Kasai 등, 2022b), TydiQA-noContext 및 TydiQA-goldP(Clark 등, 2020).

• 긴 컨텍스트: 우리는 6개의 벤치마크를 사용합니다. NarrativeQA(Kočiský 등, 2018), Scrolls-Qasper, Scrolls-Quality(Shaham 등, 2022), XLsum(영어), XLSum(비영어 언어)(Hasan 등, 2021) 및 다른 하나의 내부 벤치마크.

• 수학/과학: 우리는 8개의 벤치마크를 사용합니다. GSM8k(CoT 포함)(Cobbe 등, 2021), Hendryck의 MATH pass@1(Hendrycks 등, 2021b), MMLU(Hendrycks 등, 2021a), Math-StackExchange, Math-AMC 2022-2023 문제 및 다른 세 개의 내부 벤치마크.

• 추론: 우리는 7개의 벤치마크를 사용합니다. BigBench Hard(CoT 포함)(Srivastava 등, 2022; Suzgun 등, 2022), CLRS(Veličković 등, 2022), Proof Writer(Tafjord 등, 2020), Reasoning-Fermi 문제(Kalyan 등, 2021), Lambada(Paperno 등, 2016), HellaSwag(Zellers 등, 2019), DROP(Dua 등, 2019).

• 요약: 우리는 5개의 벤치마크를 사용합니다. XL Sum(영어), XL Sum(비영어 언어)(Hasan 등, 2021), WikiLingua(비영어 언어), WikiLingua(영어)(Ladhak 등, 2020), XSum(Narayan 등, 2018).

• 다국어성: 우리는 10개의 벤치마크를 사용합니다. XLSum(비영어 언어)(Hasan 등, 2021), WMT22(Kocmi 등, 2022), WMT23(Tom 등, 2023), FRMT(Riley 등, 2023), WikiLingua(비영어 언어)(Ladhak 등, 2020), TydiQA(no context), TydiQA(GoldP)(Clark 등, 2020), MGSM(Shi 등, 2023), 번역된 MMLU(Hendrycks 등, 2021a), NTREX(Federmann 등, 2022), FLORES-200(Team 등, 2022).

• 이미지 및 비디오: 우리는 이미지 이해를 위해 9개의 벤치마크를 사용합니다. MMMU(Yue 등, 2023), TextVQA(Singh 등, 2019), DocVQA(Mathew 등, 2021), ChartQA(Masry 등, 2022), InfographicVQA(Mathew 등, 2022), MathVista(Lu 등, 2023), AI2D(Kembhavi 등, 2016), VQAv2(Goyal 등, 2017), 다국어 이미지 이해를 위한 XM3600(Thapliyal 등, 2022), 그리고 비디오 이해를 위해 6개의 벤치마크를 사용합니다. 두 가지 다른 언어로 캡셔닝을 위한 VATEX(Wang 등, 2019), YouCook2(Zhou 등, 2018), NextQA(Xiao 등, 2021), ActivityNet-QA(Yu 등, 2019) 및 Perception Test MCQA(Pătrăucean 등, 2023).

• 오디오: 우리는 FLEURS(Conneau 등, 2023), VoxPopuli(Wang 등, 2021), Multi-lingual Librispeech(Pratap 등, 2020)와 같은 자동 음성 인식(ASR) 작업 및 CoVoST 2(Wang 등, 2020)와 같은 자동 음성 번역 작업을 포함하여 5개의 벤치마크를 사용합니다.

10.4. 정성적 예시

이 섹션에서는 Gemini Ultra 모델에 프롬프트를 주었을 때의 샘플 정성적 예시를 보여줍니다. 차트, 자연 이미지 및 밈에 대한 이미지 이해 작업에 대한 멀티모달 추론의 몇 가지 예시가 그림 10, 11, 13, 15, 16 및 17에 나와 있습니다. 그림 12는 사용자가 블로그 게시물을 디자인하기 위해 이미지와 텍스트의 교차 시퀀스를 생성하는 Gemini Ultra의 이미지 생성 능력의 예를 보여줍니다. 영어 외에도, 그림 18은 다국어 환경에서 이미지를 이해하는 모델의 능력을 보여줍니다. Gemini 모델은 또한 그림 14, 20 및 21에서 볼 수 있듯이 수학에서 멀티모달 이미지 이해 및 추론에서 강력한 성능을 보여줍니다. 그림 22는 모델이 주어진 사용자 작업에 대해 복잡한 이미지 이해, 코드 생성 및 지시 따르기 능력을 구성하는 방법을 보여주는 복잡한 멀티모달 추론의 예입니다. 그림 19에서는 모델이 작동하는 코드를 생성하고 복잡한 사용자 지시를 따를 수 있는 또 다른 예를 볼 수 있습니다. 마지막으로, 그림 23은 시간적으로 연결된 프레임 세트에 대한 추론을 통해 비디오를 이해하는 Gemini Ultra의 능력의 예를 보여줍니다.

10.4.1. 차트 이해 및 데이터에 대한 추론

그림 10: 멀티모달 차트 이해가 필요한 문제 해결. 모델은 텍스트를 읽고, 다양한 데이터 포인트 간의 연결을 이해하고, 이에 대해 추론하여 흥미로운 점을 추천하고 지시에 따라 마크다운 테이블을 생성해야 합니다(올바르게 렌더링된 상태로 표시됨). 출처: Our World In Data(Ritchie 등, 2023).

10.4.2. 멀티모달 질문 응답

그림 11: 멀티모달 정보 탐색 쿼리에 답변하기. 모델은 이미지에 표시된 특정 식물을 인식하고 그에 대한 정보를 제공할 수 있습니다. 모델은 오타에도 강건하여 사용자 질문에 오타가 있음에도 불구하고 이해할 수 있습니다. 출처: Gemini 팀의 저자가 촬영한 사진.

10.4.3. 교차된 이미지 및 텍스트 생성

그림 12: 교차된 텍스트와 이미지 생성. 모델은 텍스트와 밀접하게 관련된 이미지와 함께 블로그 게시물을 생성하라는 지시를 따를 수 있으며, 모든 이미지에서 높은 수준의 일관성을 보이는 강아지 이미지를 보여줍니다.

10.4.4. 이미지 이해 및 추론

그림 13: 멀티모달 추론 문제 해결. 모델은 이미지에서 도형을 인식하고, 그 속성을 이해하며, 도형 간의 관계에 대해 추론하여 다음 객체를 예측할 수 있습니다. 출처: Gemini 팀의 저자가 촬영한 사진.

10.4.5. 기하학적 추론

그림 14: 기하학적 추론 작업 해결. 모델은 약간 불명확한 지시에도 불구하고 작업을 잘 이해하고 의미 있는 추론 단계를 제공할 수 있습니다. 출처: Lu 등(2021).

10.4.6. 객체에 대한 정보 탐색

그림 15: 멀티모달 입력을 사용한 퍼즐 해결. 모델은 이미지의 객체를 인식하고 두 객체를 연결하는 공통점을 식별합니다. 출처: Gemini 팀의 저자가 촬영한 사진.

10.4.7. 시각적 단서에 기반한 멀티모달 추론

그림 16: 이미지의 객체(엠파이어 스테이트 빌딩) 식별 및 이미지에 약간의 시각적 왜곡이 있어도 그것이 무엇인지 인식. 이미지를 기반으로 모델은 또한 사진을 찍은 사람의 정확한 위치를 올바르게 식별할 수 있습니다. 출처: Gemini 팀의 저자가 촬영한 사진.

10.4.8. 멀티모달 유머 이해

그림 17: 밈의 유머 설명. 모델은 이미지에서 무슨 일이 일어나고 있는지 설명할 뿐만 아니라 이미지나 프롬프트에 명시적으로 언급되지 않은 문화적 맥락에도 불구하고 그것이 무엇을 의미하는지 이해하는 능력을 보여줍니다. 출처: Hwang과 Shwartz(2023).

10.5. 다국어 환경에서의 상식적 추론

그림 18: 이미지에서의 상식적 추론. 모델은 그래프에 표현된 관계를 이해하고 다국어 환경에서 이에 대해 추론할 수 있습니다. 출처: Gemini 팀의 저자가 만든 이미지.

10.5.1. 추론 및 코드 생성

그림 19: 사용자 요청에 기반한 웹사이트 코드 작성. 모델은 사용자가 정의한 지시와 요구 사항을 따르고 이를 작동하는 코드로 변환합니다.

그림 20: 미분 문제 해결. 모델은 단계별 설명과 올바르게 정의된 LaTeX 방정식으로 미적분학 문제에 대한 해결책을 제시할 수 있습니다. 출처: Macmillan Learning에서 제공한 문제.

10.6. 다단계 추론 및 수학

그림 21: 다단계 수학 문제 해결. 모델은 작업을 이해하고 올바르게 계산된 값으로 마크다운 테이블을 생성할 수 있습니다. 또한 숫자가 어디서 왔는지 보여주고 작업에 주어진 질문에 답하라는 지시를 명시적으로 따릅니다. 출처: Oktatási Hivatal(2023, p. 20)

10.6.1. 복잡한 이미지 이해, 코드 생성 및 지시 따르기

그림 22: 코드 생성에 적용된 멀티모달 추론 능력. Gemini Ultra는 플롯을 생성했을 코드를 추론하는 역 그래픽 작업을 수행하고, 추가 수학적 변환을 수행하며, 관련 코드를 생성해야 합니다. 출처: Gemini 팀의 저자가 생성한 그림.

10.6.2. 비디오 이해 및 추론

그림 23: 비디오에 제시된 상황에 대한 비디오 이해 및 추론. 여기서는 텍스트 프롬프트와 함께 비디오를 모델에 입력으로 제공합니다(이미지는 여기서 시각화 목적으로만 제공됨). 모델은 비디오에서 무슨 일이 일어났는지 분석하고 비디오에서의 행동이 어떻게 더 나아질 수 있었는지에 대한 권장 사항을 제공할 수 있습니다. 비디오 출처: "Football/Soccer Penalty Miss" https://www.youtube.com/watch?v=VmWxjmJ3mvs

References

Gemini: A Family of Highly Capable Multimodal Models