Gemini: A Family of Highly Capable Multimodal Models
by Google DeepMind
TL;DR
이 연구를 시작하게 된 배경과 동기는 무엇입니까?
대규모 언어 모델의 발전은 인공지능 분야에서 혁명적인 변화를 가져왔지만, 여전히 중요한 한계점들이 존재했습니다. 기존의 대부분의 언어 모델들은 텍스트 데이터에만 집중하여 인간의 다양한 인지 능력을 완전히 반영하지 못했습니다. 특히 이미지, 오디오, 비디오와 같은 다양한 모달리티를 동시에 이해하고 처리할 수 있는 능력은 매우 제한적이었습니다.
Google 연구팀은 이러한 한계를 극복하고 더욱 포괄적이고 인간 수준에 가까운 인공지능 시스템을 개발하고자 Gemini 프로젝트를 시작했습니다. 그들의 궁극적인 목표는 텍스트뿐만 아니라 이미지, 오디오, 비디오를 원활하게 처리하고 이해할 수 있는 멀티모달 AI 모델을 만드는 것이었습니다.
이 연구에서 제시하는 새로운 해결 방법은 무엇입니까?
Gemini는 완전히 새로운 멀티모달 모델 아키텍처를 제안합니다. 기존 트랜스포머 디코더 구조를 기반으로 하되, 텍스트, 이미지, 오디오, 비디오 데이터를 동시에 훈련시켜 모달리티 간 원활한 상호작용과 추론을 가능하게 합니다. 특히 Ultra, Pro, Nano의 세 가지 크기로 구성되어 다양한 계산 환경과 애플리케이션 요구사항에 대응할 수 있도록 설계되었습니다.
모델의 핵심 혁신은 네이티브 멀티모달 처리 능력입니다. 각 모달리티를 별도로 처리하는 대신, 데이터를 통합적으로 학습하여 텍스트, 이미지, 오디오, 비디오 간의 복잡한 상호연결성을 포착합니다. 이를 통해 단일 모달리티를 넘어서는 고도의 추론과 이해가 가능해집니다.
제안된 방법은 어떻게 구현되었습니까?
Gemini 모델의 구현은 대규모 분산 TPU 인프라를 활용했습니다. Google의 최신 TPUv4와 TPUv5e 가속기를 사용하여 수천 개의 칩에 걸쳐 모델을 훈련시켰으며, JAX와 Pathways 프레임워크를 통해 효율적인 분산 학습을 수행했습니다. 특히 Silent Data Corruption과 같은 하드웨어 장애 문제를 혁신적인 결정론적 재생 기술로 해결했습니다.
데이터셋 구성에서도 혁신적인 접근을 취했습니다. 웹 문서, 도서, 코드, 이미지, 오디오, 비디오를 포함하는 광범위하고 다양한 데이터셋을 사용했으며, SentencePiece 토크나이저를 활용해 다국어 및 멀티모달 환경에서의 효율적인 토큰화를 구현했습니다. 또한 데이터 품질 관리를 위해 정교한 필터링과 큐레이션 프로세스를 적용했습니다.
이 연구의 결과가 가지는 의미는 무엇입니까?
Gemini 모델, 특히 Ultra 버전은 32개 벤치마크 중 30개에서 최첨단 성능을 달성하며 인공지능 분야에 중요한 이정표를 세웠습니다. MMLU 벤치마크에서 90% 이상의 정확도로 인간 전문가 수준의 성능을 달성한 최초의 모델로 기록되었습니다. 이는 AI 시스템이 복잡한 추론과 이해 작업에서 인간에 근접하는 능력을 보여주는 중요한 성과입니다.
더욱 중요한 것은 Gemini가 열어준 새로운 가능성입니다. 이미지, 오디오, 비디오를 자연스럽게 처리하고 이해할 수 있는 능력은 교육, 의료, 연구, 창작 등 다양한 분야에서 혁신적인 응용을 가능하게 할 것으로 기대됩니다. 또한 책임감 있는 AI 개발을 위한 포괄적인 평가와 완화 전략을 제시함으로써, 윤리적이고 안전한 AI 발전의 새로운 모델을 제시했습니다.
Gemini: 고도로 능력 있는 멀티모달 모델 패밀리
초록
Google에서 개발한 Gemini는 이미지, 오디오, 비디오, 텍스트 이해 영역에서 놀라운 능력을 보여주는 새로운 멀티모달 모델 패밀리입니다. Gemini 패밀리는 복잡한 추론 작업부터 온디바이스 메모리 제약 환경까지 다양한 애플리케이션에 적합한 Ultra, Pro, Nano 세 가지 크기로 구성되어 있습니다.
광범위한 벤치마크 평가에서 가장 강력한 Gemini Ultra 모델은 32개 벤치마크 중 30개에서 최첨단 성능을 달성했으며, 특히 잘 알려진 시험 벤치마크인 MMLU에서 인간 전문가 수준의 성능을 달성한 최초의 모델이 되었습니다. 또한 검토된 20개의 멀티모달 벤치마크 모두에서 최첨단 성능을 개선했습니다.
Gemini 패밀리의 새로운 크로스 모달 추론 및 언어 이해 능력은 다양한 사용 사례를 가능하게 할 것으로 기대됩니다. 연구진은 Gemini, Gemini Advanced, Google AI Studio, Cloud Vertex AI 등의 서비스를 통해 사용자에게 Gemini 모델을 책임감 있게 사후 훈련하고 배포하는 접근 방식에 대해 논의합니다.
서론
Gemini 모델 패밀리의 개발 목표와 구성
Google에서 개발한 Gemini는 고도로 능력 있는 멀티모달 모델 패밀리로, 이미지, 오디오, 비디오, 텍스트 데이터에 대해 공동으로 훈련되어 모달리티 전반에 걸친 강력한 일반화 능력과 각 도메인에서의 최첨단 이해 및 추론 성능을 모두 갖춘 모델을 구축하는 것을 목표로 합니다.
Gemini 1.0의 첫 번째 버전은 세 가지 크기로 제공됩니다. Ultra는 고도로 복잡한 작업을 위해, Pro는 대규모 배포에서의 향상된 성능과 배포 가능성을 위해, 그리고 Nano는 온디바이스 애플리케이션을 위해 설계되었습니다. 각 크기는 서로 다른 계산 제약과 애플리케이션 요구사항을 해결하도록 특별히 맞춤화되었습니다.
대규모 사전 훈련 후, 연구진은 전반적인 품질을 개선하고, 목표 능력을 향상시키며, 정렬 및 안전 기준을 충족하도록 모델을 사후 훈련합니다. 다운스트림 애플리케이션의 다양한 요구사항으로 인해, 두 가지 사후 훈련된 Gemini 모델 패밀리 변형을 제작했습니다.
채팅 중심 변형인 Gemini Apps 모델은 이전에 Bard로 알려진 대화형 AI 서비스인 Gemini와 Gemini Advanced에 최적화되어 있습니다. 개발자 중심 변형인 Gemini API 모델은 다양한 제품에 최적화되어 있으며 Google AI Studio와 Cloud Vertex AI를 통해 접근할 수 있습니다.
기술적 기반과 발전
Gemini 모델의 개발은 여러 중요한 기술적 기반 위에 구축되었습니다. Transformer 아키텍처는 현대 대규모 언어 모델의 핵심 구조로, 어텐션 메커니즘만을 사용하여 순환 신경망이나 합성곱 신경망 없이도 뛰어난 성능을 달성할 수 있음을 보여주었습니다. 이러한 어텐션 기반 아키텍처는 Gemini의 효율적인 크로스 모달 추론과 이해 능력의 핵심 기반이 됩니다.
PaLM 모델에서 보여준 효율적인 스케일링 접근법은 Pathways 시스템을 사용하여 540B 파라미터 모델을 6144개의 TPU v4 칩에서 효율적으로 훈련하는 방법을 제시했습니다. 이러한 대규모 분산 훈련 기술은 Gemini와 같은 멀티모달 모델의 훈련에 직접 적용 가능합니다.
또한 GPT-3에서 입증된 퓨 샷 학습 능력과 GPT-4의 멀티모달 이해 능력은 Gemini 모델이 추구하는 방향성과 밀접한 관련이 있습니다. 특히 GPT-4가 보여준 학술 및 전문 시험에서의 인간 수준 성능은 Gemini Ultra가 MMLU에서 달성한 인간 전문가 수준 성능의 선례가 됩니다.
성능 및 벤치마크 결과
연구진은 사전 훈련 및 사후 훈련된 Gemini 모델의 성능을 언어, 코딩, 추론, 멀티모달 작업을 포괄하는 포괄적인 내부 및 외부 벤치마크 모음에서 평가했습니다. Gemini 패밀리는 대규모 언어 모델링, 이미지 이해, 오디오 처리, 비디오 이해 분야에서 최첨단 성능을 발전시켰습니다.
가장 강력한 모델인 Gemini Ultra는 보고된 32개 벤치마크 중 30개에서 새로운 최첨단 결과를 달성했습니다. 이는 12개의 인기 있는 텍스트 및 추론 벤치마크 중 10개, 9개의 이미지 이해 벤치마크 모두, 6개의 비디오 이해 벤치마크 모두, 5개의 음성 인식 및 음성 번역 벤치마크 모두를 포함합니다.
특히 주목할 만한 성과는 MMLU 벤치마크에서의 결과입니다. MMLU는 지식과 추론을 시험하는 저명한 벤치마크로, 다양한 시험 문제로 구성되어 있습니다. Gemini Ultra는 90% 이상의 점수로 인간 전문가 성능을 달성한 최초의 모델이 되었습니다. 이는 인공지능 모델이 인간 전문가 수준의 지식과 추론 능력을 보여준 중요한 이정표입니다.
텍스트를 넘어서, Gemini Ultra는 도전적인 멀티모달 추론 작업에서도 주목할 만한 발전을 이루었습니다. 최근 MMMU 벤치마크에서 62.4%의 새로운 최첨단 점수를 달성하여 이전 최고 모델보다 5% 포인트 이상 앞섰습니다. MMMU는 대학 수준의 주제 지식과 신중한 추론이 필요한 다학제 작업의 이미지에 대한 질문으로 구성되어 있어, Gemini의 고급 멀티모달 추론 능력을 보여줍니다.
멀티모달 추론 능력의 실제 적용
위 그림들은 Gemini 모델의 인상적인 멀티모달 추론 능력을 보여주는 교육적 예시입니다. 교사가 스키어가 경사면을 내려가는 물리학 문제를 그렸고, 학생이 이에 대한 해답을 작성했습니다. Gemini 모델은 이러한 상황에서 다음과 같은 복합적인 능력을 보여줍니다.
- 손글씨 인식: 지저분한 손글씨를 정확하게 인식하고 이해합니다.
- 문제 이해: 물리학 문제의 설정을 올바르게 파악합니다.
- 수학적 변환: 문제와 해답을 모두 수학적 조판으로 변환합니다.
- 추론 검증: 학생이 문제를 해결하는 과정에서 잘못된 추론 단계를 식별합니다.
- 올바른 해답 제시: 정확한 해결 과정을 단계별로 제시합니다.
이 예시에서 사용된 물리학 공식들은 다음과 같습니다.
위치 에너지: $E_p = mgh$ 운동 에너지: $E_k = \frac{1}{2}mv^2$
여기서 $m$은 질량, $g$는 중력 가속도, $h$는 높이, $v$는 속도를 나타냅니다. 에너지 보존 법칙에 따라 마찰이 없는 경사면에서 스키어의 총 에너지는 보존되므로, 초기 위치 에너지가 최종 운동 에너지로 변환됩니다.
이러한 능력은 교육 분야에서 흥미로운 가능성을 열어줍니다. 학생들의 손글씨 답안을 자동으로 분석하고, 오류를 식별하며, 개선된 해답을 제시할 수 있는 AI 튜터의 역할을 수행할 수 있습니다.
AlphaCode 2와 복합 추론 시스템
대규모 언어 모델의 추론 능력은 더 복잡한 다단계 문제를 해결할 수 있는 일반화 에이전트 구축에 대한 가능성을 보여줍니다. AlphaCode 팀은 Gemini 모델의 추론 능력을 검색 및 도구 사용과 결합하여 경쟁 프로그래밍 문제 해결에 뛰어난 성능을 보이는 새로운 Gemini 모델 기반 에이전트인 AlphaCode 2를 구축했습니다.
AlphaCode 2는 Codeforces 경쟁 프로그래밍 플랫폼에서 상위 15% 내에 랭크되어, 상위 50%에 머물렀던 최첨단 전작 대비 큰 개선을 보여주었습니다. 이는 사전 훈련된 모델을 검색 및 추론 메커니즘과 결합할 때의 잠재력을 보여주는 중요한 사례입니다.
효율성과 온디바이스 배포
효율성 측면에서도 Gemini Nano라는 온디바이스 배포를 목표로 하는 소형 모델 시리즈로 최첨단을 발전시켰습니다. 이러한 모델들은 요약, 독해, 텍스트 완성 작업과 같은 온디바이스 작업에서 뛰어난 성능을 보이며, 크기 대비 추론, STEM, 코딩, 멀티모달, 다국어 작업에서 인상적인 능력을 보여줍니다.
이는 Flamingo 모델에서 보여준 멀티모달 퓨 샷 학습 능력과 Vision Transformer의 이미지 이해 능력을 소형 모델에서도 구현할 수 있음을 시사합니다. 특히 메모리 제약이 있는 환경에서도 강력한 멀티모달 능력을 제공할 수 있다는 점은 실용적 배포 측면에서 매우 중요합니다.
논문의 구성과 전망
이어지는 섹션들에서는 먼저 모델 아키텍처, 훈련 인프라, 사전 훈련 데이터셋에 대한 개요를 제공합니다. 그 다음 텍스트, 코드, 이미지, 오디오, 비디오를 포괄하는 잘 연구된 벤치마크에서의 사전 훈련 및 사후 훈련된 Gemini 모델 패밀리의 상세한 평가를 제시하며, 영어 성능과 다국어 능력을 모두 다룹니다.
이후 사후 훈련에 대한 접근 방식을 논의하고, Gemini Apps와 Gemini API 모델 변형의 공통점과 차이점을 강조하며, 주요 능력에 대한 성능을 벤치마킹합니다. 책임감 있는 배포는 매우 중요하므로, 배포 결정 전 영향 평가, 모델 정책 개발, 평가 및 피해 완화 과정을 설명합니다.
마지막으로 Gemini 모델의 광범위한 함의, 잠재적 애플리케이션과 함께 한계에 대해 논의하여 AI 연구와 혁신의 새로운 시대를 위한 길을 제시합니다. Gemini 패밀리의 새로운 크로스 모달 추론 및 언어 이해 능력은 다양한 사용 사례를 가능하게 할 것으로 믿어지며, 이는 인공지능이 인간 수준의 지능에 한 걸음 더 가까워졌음을 의미합니다.
모델 아키텍처
Transformer 기반 아키텍처의 발전과 최적화
Gemini 모델들은 Transformer 디코더 구조를 기반으로 구축되었으며, 대규모 안정적 훈련과 Google의 Tensor Processing Unit에서의 최적화된 추론을 가능하게 하는 아키텍처 개선사항들이 적용되었습니다.
Transformer 아키텍처는 현대 대규모 언어 모델의 핵심 기반이 되는 구조로, 순환 신경망이나 합성곱 신경망 없이 어텐션 메커니즘만을 사용하여 뛰어난 성능을 달성할 수 있음을 보여주었습니다. Gemini 모델은 이러한 기본 구조 위에 32k 컨텍스트 길이를 지원하며, 멀티 쿼리 어텐션과 같은 효율적인 어텐션 메커니즘을 채용하고 있습니다.
멀티 쿼리 어텐션은 표준 멀티 헤드 어텐션의 변형으로, 증분 추론 속도를 개선하기 위해 설계되었습니다. 표준 멀티 헤드 어텐션에서는 각 헤드가 독립적인 키(Key)와 값(Value) 행렬을 가지지만, 멀티 쿼리 어텐션에서는 모든 헤드가 키와 값을 공유합니다. 이는 메모리 대역폭 요구사항을 크게 줄여 추론 속도를 향상시킵니다.
수학적으로 표준 멀티 헤드 어텐션은 다음과 같이 정의됩니다.
\[\text{MultiHead}(Q, K, V) = \text{Concat}(\text{head}_1, \ldots, \text{head}_h)W^O\]여기서 각 $\text{head}_i = \text{Attention}(QW^Q_i, KW^K_i, VW^V_i)$이며, $W^Q_i, W^K_i, W^V_i$는 각 헤드별 독립적인 학습 가능한 투영 행렬입니다.
반면 멀티 쿼리 어텐션에서는 키와 값 투영이 모든 헤드에서 공유되어 메모리 효율성이 크게 향상됩니다. 이러한 최적화는 특히 TPU와 같은 전용 하드웨어에서 추론 성능을 극대화하는 데 중요한 역할을 합니다.
Gemini 모델 패밀리 구성
Gemini 1.0의 첫 번째 버전은 다양한 애플리케이션을 지원하기 위해 세 가지 주요 크기로 구성됩니다.
모델 크기 | 모델 설명 |
---|---|
Ultra | 추론 및 멀티모달 작업을 포함한 광범위한 고도로 복잡한 작업에서 최첨단 성능을 제공하는 가장 강력한 모델입니다. Gemini 아키텍처 덕분에 TPU 가속기에서 대규모로 효율적으로 서비스 가능합니다. |
Pro | 광범위한 작업에서 상당한 성능을 제공하는 비용과 지연 시간 측면에서 성능 최적화된 모델입니다. 이 모델은 강력한 추론 성능과 광범위한 멀티모달 능력을 보여줍니다. |
Nano | 온디바이스 실행을 위해 설계된 가장 효율적인 모델입니다. 각각 낮은 메모리와 높은 메모리 디바이스를 대상으로 하는 1.8B(Nano-1)와 3.25B(Nano-2) 파라미터의 두 가지 버전을 훈련했습니다. 더 큰 Gemini 모델로부터 증류를 통해 훈련되었으며, 배포를 위해 4비트 양자화되어 최고 수준의 성능을 제공합니다. |
이러한 계층적 구성은 서로 다른 계산 제약과 애플리케이션 요구사항을 해결하도록 특별히 설계되었습니다. Ultra 모델은 최대 성능이 필요한 복잡한 연구 및 전문 작업에 적합하며, Pro 모델은 실용적인 배포와 성능의 균형을 제공하고, Nano 모델은 모바일 디바이스나 엣지 컴퓨팅 환경에서의 실시간 추론을 가능하게 합니다.
네이티브 멀티모달 처리 능력
Gemini 모델들은 텍스트 입력과 함께 자연 이미지, 차트, 스크린샷, PDF, 비디오 등 다양한 오디오 및 시각적 입력이 인터리브된 형태로 처리하도록 훈련되었으며, 텍스트와 이미지 출력을 모두 생성할 수 있습니다. 이러한 멀티모달 능력은 처음부터 모델에 내재되어 있어, 별도의 모달리티별 전처리나 후처리 없이도 다양한 형태의 입력을 자연스럽게 처리할 수 있습니다.
Gemini의 시각적 인코딩은 Google의 기존 연구인 Flamingo, CoCa, PaLI에서 영감을 받았습니다. 이들 모델은 각각 멀티모달 학습에서 중요한 기여를 했습니다.
Flamingo는 시각-언어 모델의 퓨 샷 학습 능력을 보여주었으며, 임의로 인터리브된 시각적 및 텍스트 데이터 시퀀스를 처리할 수 있는 아키텍처를 제안했습니다. Flamingo는 Perceiver Resampler 모듈을 사용하여 가변 크기의 시각적 특징을 고정된 수의 토큰으로 매핑하고, "gated xattn-dense" 레이어를 통해 언어 모델과 시각적 입력 간의 효율적인 크로스 어텐션을 구현했습니다.
CoCa는 대조 학습과 캡셔닝 손실을 결합한 최소주의적 설계를 통해 이미지-텍스트 파운데이션 모델을 사전 훈련하는 방법을 제시했습니다. CoCa는 디코더 트랜스포머를 유니모달과 멀티모달 구성 요소로 분리하여, 텍스트 전용 표현을 인코딩하는 유니모달 레이어에서는 크로스 어텐션을 생략하는 혁신적인 구조를 도입했습니다.
PaLI는 언어와 이미지 구성 요소를 공동으로 스케일링하는 것의 중요성을 보여주었으며, 100개 이상의 언어를 지원하는 대규모 다국어 데이터셋에서 훈련되어 강력한 교차 언어 전이 성능을 달성했습니다.
Gemini이 이들 모델과 구별되는 중요한 특징은 이산 이미지 토큰을 사용하여 네이티브하게 이미지를 출력할 수 있다는 점입니다. 이는 중간 텍스트 설명에 의존하지 않고 직접적으로 시각적 콘텐츠를 생성할 수 있음을 의미합니다.
비디오 및 오디오 처리 메커니즘
비디오 이해는 비디오를 대용량 컨텍스트 윈도우 내에서 프레임 시퀀스로 인코딩하여 수행됩니다. 이러한 접근 방식은 시간적 정보를 보존하면서도 기존의 어텐션 메커니즘을 활용할 수 있게 합니다. 비디오 프레임이나 이미지는 모델 입력의 일부로서 텍스트나 오디오와 자연스럽게 인터리브될 수 있어, 복합적인 멀티모달 이해가 가능합니다.
모델들은 세밀한 이해가 필요한 작업에 더 많은 계산을 할당하기 위해 가변 입력 해상도를 처리할 수 있습니다. 이는 고해상도 이미지나 복잡한 시각적 콘텐츠에 대해 더 정밀한 분석을 수행할 수 있게 하며, 동시에 단순한 입력에 대해서는 계산 효율성을 유지할 수 있습니다.
오디오 처리 측면에서, Gemini 모델들은 Universal Speech Model (USM) 특징으로부터 16kHz 오디오 신호를 직접 수집할 수 있습니다. USM은 100개 이상의 언어에서 자동 음성 인식을 수행하는 단일 대규모 모델로, BEST-RQ라는 확장 가능한 자기 지도 사전 훈련 방법과 MOST라는 다목적 지도 사전 훈련 접근법을 사용합니다.
이러한 직접적인 오디오 처리는 오디오를 단순히 텍스트 입력으로 매핑할 때 일반적으로 손실되는 뉘앙스를 포착할 수 있게 합니다. 예를 들어, 화자의 감정 상태, 억양, 강조, 배경 소음 등의 정보가 보존되어 더 풍부한 멀티모달 이해가 가능합니다.
훈련 혁신과 인프라 최적화
Gemini 모델 패밀리의 훈련에는 훈련 알고리즘, 데이터셋, 인프라 측면에서의 혁신이 필요했습니다. Pro 모델의 경우, 인프라와 학습 알고리즘의 내재적 확장성 덕분에 Ultra 모델 리소스의 일부만을 활용하여 몇 주 만에 사전 훈련을 완료할 수 있었습니다.
Nano 시리즈 모델들은 증류 및 훈련 알고리즘의 추가적인 발전을 활용하여 요약 및 독해와 같은 다양한 작업에서 최고 수준의 소형 언어 모델을 생산합니다. 이러한 모델들은 차세대 온디바이스 경험을 구동하는 역할을 합니다.
증류 과정에서는 더 큰 Gemini 모델의 지식이 작은 모델로 전달되며, 이때 단순히 출력을 모방하는 것이 아니라 내부 표현과 추론 과정까지 학습하게 됩니다. 4비트 양자화를 통해 메모리 사용량을 더욱 줄이면서도 성능 저하를 최소화하여, 제한된 하드웨어 리소스에서도 강력한 AI 능력을 제공할 수 있습니다.
이러한 아키텍처적 혁신들은 Gemini 모델들이 다양한 배포 시나리오에서 효율적으로 작동할 수 있게 하며, 클라우드 기반의 대규모 추론부터 모바일 디바이스에서의 실시간 처리까지 광범위한 애플리케이션을 지원합니다.
훈련 인프라
대규모 분산 훈련을 위한 TPU 기반 인프라
Gemini 모델들은 크기와 구성에 따라 TPUv5e와 TPUv4 가속기를 사용하여 훈련되었습니다. 특히 Gemini Ultra의 훈련에는 Google이 소유한 대규모 TPUv4 가속기 플릿이 여러 데이터센터에 걸쳐 사용되었으며, 이는 이전 플래그십 모델인 PaLM-2 대비 상당한 규모 증가를 나타내어 새로운 인프라 도전과제들을 제시했습니다.
가속기 수를 확장하면 전체 시스템에서 하드웨어의 평균 고장 간격(MTBF)이 비례적으로 감소하게 됩니다. 이는 대규모 시스템에서 필연적으로 발생하는 현상으로, 개별 하드웨어 구성 요소의 신뢰성이 높더라도 전체 시스템 규모가 커질수록 어딘가에서 고장이 발생할 확률이 증가하기 때문입니다. 연구진은 계획된 재스케줄링과 선점의 비율을 최소화했지만, 이러한 대규모에서는 진정한 기계 고장이 모든 하드웨어 가속기에서 일상적으로 발생합니다.
SuperPod 아키텍처와 동적 토폴로지 재구성
TPUv4 가속기는 각각 전용 광학 스위치에 연결된 4096개의 칩으로 구성된 "SuperPod"에 배포됩니다. 이 광학 스위치는 4x4x4 칩 큐브를 약 10초 내에 임의의 3D 토러스 토폴로지로 동적으로 재구성할 수 있습니다. 이러한 동적 재구성 능력은 Jupiter 네트워크 인프라에서 개발된 광학 회로 스위치와 소프트웨어 정의 네트워킹 기술을 기반으로 합니다.
Jupiter 네트워크 시스템은 Google의 데이터센터 네트워크 인프라를 변화시킨 혁신적인 접근법으로, 광학 회로 스위치를 통해 네트워크 토폴로지를 동적으로 재구성할 수 있게 합니다. 이는 특히 대규모 AI 모델 훈련과 같이 통신 패턴이 복잡하고 변화하는 워크로드에 매우 적합합니다.
Gemini Ultra의 경우, 연구진은 핫 스탠바이와 롤링 유지보수를 허용하기 위해 슈퍼팟당 소수의 큐브를 보유하기로 결정했습니다. 이는 시스템의 가용성을 높이고 유지보수 중에도 훈련을 지속할 수 있게 하는 중요한 설계 결정입니다.
다중 데이터센터 분산 훈련 아키텍처
TPU 가속기는 주로 고속 칩 간 상호연결을 통해 통신하지만, Gemini Ultra 규모에서는 Google의 클러스터 내 및 클러스터 간 네트워크를 사용하여 여러 데이터센터의 SuperPod들을 결합합니다. 이러한 네트워크 인프라는 B4 소프트웨어 정의 WAN 시스템을 기반으로 하며, 계층 관리, 파티셔닝, 비대칭성 처리를 통해 가용성과 확장성을 보장합니다.
Google의 네트워크 지연 시간과 대역폭은 일반적으로 사용되는 동기 훈련 패러다임을 지원하기에 충분하며, 슈퍼팟 내에서는 모델 병렬성을, 슈퍼팟 간에는 데이터 병렬성을 활용합니다. 이러한 하이브리드 병렬화 전략은 통신 오버헤드를 최소화하면서도 대규모 모델을 효율적으로 훈련할 수 있게 합니다.
단일 컨트롤러 프로그래밍 모델과 자동 분할
JAX와 Pathways의 '단일 컨트롤러' 프로그래밍 모델은 단일 Python 프로세스가 전체 훈련 실행을 조율할 수 있게 하여 개발 워크플로우를 극적으로 단순화합니다.
JAX는 Python과 NumPy 프로그램의 구성 가능한 변환을 위한 라이브러리로, 고성능 수치 계산과 머신러닝에 중점을 둡니다. JAX의 핵심 혁신은 함수형 프로그래밍 접근법을 통해 JIT 컴파일, 자동 미분, 벡터화, 병렬화와 같은 구성 가능한 프로그램 변환을 제공한다는 점입니다. 이러한 단일 컨트롤러 모델은 복잡한 분산 계산을 단일 Python 프로세스로 관리할 수 있게 하여, 대규모 모델 훈련에서 발생하는 하드웨어 장애로부터의 빠른 복구를 가능하게 합니다.
Pathways 시스템은 수천 개의 가속기에 걸쳐 분산된 계산을 효율적으로 조정하기 위해 샤드된 데이터플로우 그래프 표현을 사용하는 비동기 분산 데이터플로우 시스템입니다. 중앙집중식 갱 스케줄링과 병렬 비동기 디스패치를 통해 공유 가속기에서 SPMD 계산을 교착상태 없이 지원하며, 고정된 클라이언트 및 스케줄링 오버헤드를 상각시킵니다.
XLA 컴파일러의 GSPMD 분할기는 훈련 단계 계산을 분할하고, MegaScale XLA 컴파일러 패스는 적절한 집합 연산을 정적으로 스케줄링하여 계산과 최대한 겹치도록 하며 단계 시간의 변동을 매우 적게 유지합니다.
GSPMD는 사용자가 단일 디바이스용으로 프로그램을 작성한 후 텐서가 디바이스 간에 어떻게 분산되어야 하는지 주석을 달 수 있게 하는 자동 컴파일러 기반 병렬화 시스템입니다. 이 시스템은 복제, 타일링, 부분 타일링을 포함한 유연한 샤딩 표현을 정의하여 데이터 병렬성, 모델 병렬성, 공간 분할 등 다양한 병렬성 패턴을 표현할 수 있습니다.
혁신적인 장애 복구 메커니즘
이러한 규모에서 높은 굿풋(goodput)을 유지하는 것은 가중치를 영구 클러스터 스토리지에 주기적으로 체크포인팅하는 기존 접근법으로는 불가능했을 것입니다. Gemini 모델의 경우, 연구진은 대신 모델 상태의 중복 인메모리 복사본을 사용했으며, 계획되지 않은 하드웨어 장애 시 손상되지 않은 모델 복제본에서 직접 빠르게 복구했습니다.
PaLM과 PaLM-2 모두와 비교하여, 이는 훨씬 더 큰 훈련 리소스가 사용되었음에도 불구하고 복구 시간에서 상당한 속도 향상을 제공했습니다. 그 결과, 가장 큰 규모의 훈련 작업에 대한 전체 굿풋이 85%에서 97%로 증가했습니다. 이는 매우 인상적인 개선으로, 대규모 시스템에서 하드웨어 장애가 빈번함에도 불구하고 거의 이론적 최대치에 가까운 효율성을 달성했음을 의미합니다.
Silent Data Corruption 대응 기술
전례 없는 규모에서의 훈련은 필연적으로 새롭고 흥미로운 시스템 장애 모드를 표면화시키며, 이 경우 해결해야 했던 문제 중 하나는 "Silent Data Corruption (SDC)"이었습니다. SDC는 시스템이 오류를 감지하거나 보고하지 않으면서 데이터가 손상되는 현상으로, 매우 드물지만 Gemini 모델의 규모에서는 매주 또는 격주마다 SDC 이벤트가 훈련에 영향을 미칠 것으로 예상할 수 있습니다.
Silent Data Corruption 연구에 따르면, SDC는 단순한 소프트 에러에 국한되지 않고 디바이스 오류, 초기 수명 장애, 성능 저하, 수명 종료 마모 등 다양한 하드웨어 결함으로 인해 발생할 수 있습니다. 특히 대규모 시스템에서는 개별 구성 요소의 신뢰성이 높더라도 전체 시스템 규모로 인해 SDC 발생 빈도가 증가합니다.
결함이 있는 하드웨어를 빠르게 감지하고 제거하기 위해서는 잘못된 계산을 격리하기 위한 결정론적 재생을 활용하는 여러 새로운 기술과, 유휴 기계와 핫 스탠바이에서의 사전 예방적 SDC 스캐너가 필요했습니다.
결정론적 재생 기술은 동일한 입력에 대해 항상 동일한 출력을 생성하도록 보장하여, 오류가 발생했을 때 정확히 어느 하드웨어에서 문제가 발생했는지 추적할 수 있게 합니다. 이는 특히 분산 시스템에서 매우 중요한데, 수천 개의 가속기 중 어느 것이 문제를 일으키는지 식별하는 것이 매우 어렵기 때문입니다.
완전히 결정론적인 인프라는 Ultra 모델로 이어지는 개발 과정에서 하드웨어 장애를 포함한 근본 원인을 빠르게 식별할 수 있게 했으며, 이는 안정적인 훈련을 위한 중요한 요소였습니다. 이러한 결정론적 접근법은 디버깅 시간을 크게 단축시키고, 문제 발생 시 빠른 대응을 가능하게 하여 전체적인 훈련 효율성을 크게 향상시켰습니다.
인프라 혁신의 의미
Gemini 모델의 훈련 인프라는 여러 측면에서 혁신적입니다. 첫째, 동적 토폴로지 재구성을 통해 하드웨어 리소스를 효율적으로 활용하고 장애에 대응할 수 있습니다. 둘째, 단일 컨트롤러 프로그래밍 모델을 통해 복잡한 분산 시스템을 단순화하여 개발 생산성을 크게 향상시켰습니다. 셋째, 혁신적인 장애 복구 메커니즘을 통해 대규모 시스템에서도 높은 가용성을 달성했습니다.
이러한 인프라 혁신들은 단순히 Gemini 모델의 훈련을 가능하게 한 것을 넘어서, 향후 더욱 대규모의 AI 모델 개발을 위한 기반을 마련했습니다. 특히 SDC 대응 기술과 결정론적 재생 시스템은 대규모 AI 시스템의 신뢰성을 보장하는 중요한 기술적 기여로 평가됩니다.
사전 훈련 데이터셋
멀티모달 및 다국어 데이터셋 구성
Gemini 모델들은 멀티모달과 다국어를 모두 지원하는 데이터셋에서 훈련되었습니다. 사전 훈련 데이터셋은 웹 문서, 도서, 코드 데이터를 사용하며, 이미지, 오디오, 비디오 데이터를 포함합니다. 이러한 다양한 모달리티의 통합은 Gemini 모델이 텍스트뿐만 아니라 시각적, 청각적 정보를 자연스럽게 처리할 수 있는 기반을 제공합니다.
SentencePiece 토크나이저의 혁신적 활용
연구진은 SentencePiece 토크나이저를 사용했으며, 전체 훈련 코퍼스의 대규모 샘플에서 토크나이저를 훈련시키는 것이 추론된 어휘를 개선하고 이후 모델 성능을 향상시킨다는 것을 발견했습니다.
SentencePiece는 언어에 독립적인 서브워드 토크나이저로, 특히 다국어 및 멀티모달 환경에서 중요한 기술적 장점을 제공합니다. 이 토크나이저의 핵심 혁신은 "무손실 토큰화(lossless tokenization)" 접근법으로, 공백을 일반적인 기호로 처리하고 메타 기호 _
를 사용하여 공백을 표현함으로써 원본 입력 텍스트를 토큰화된 출력에서 완전히 재구성할 수 있게 합니다.
특히 Gemini 모델들은 비라틴 문자를 효율적으로 토큰화할 수 있으며, 이는 모델 품질뿐만 아니라 훈련 및 추론 속도에도 도움이 됩니다. 이러한 개선은 SentencePiece의 $O(N\log(N))$ 알고리즘을 통한 효율적인 서브워드 모델 훈련과 입력 텍스트 분할 기술 덕분입니다. 유니그램 언어 모델의 경우 복잡도가 입력 크기에 선형적으로 비례하여 대규모 다국어 데이터 처리에 매우 적합합니다.
최적 토큰 수 결정과 스케일링 전략
가장 큰 모델들을 훈련하는 데 사용된 토큰 수는 Hoffmann et al. (2022)의 접근법을 따라 결정되었습니다. 이 연구는 컴퓨트 최적 대규모 언어 모델 훈련을 위한 중요한 이론적 기반을 제공했습니다.
Hoffmann et al.의 핵심 기여는 모델 크기와 훈련 데이터를 공동으로 스케일링하는 방법론을 제안한 것입니다. 이들은 최종 사전 훈련 손실을 다음과 같이 모델링했습니다.
\[\hat{L}(N,D) = E + \frac{A}{N^{\alpha}} + \frac{B}{D^{\beta}}\]여기서 $N$은 모델 크기, $D$는 훈련 토큰 수를 나타냅니다. 이들의 연구에서 도출된 최적 스케일링 관계는 다음과 같습니다.
\[N_{opt}(C) \propto C^a, \quad D_{opt}(C) \propto C^b\]여기서 $a \approx 0.5, b \approx 0.5$로, 모델 크기와 훈련 데이터가 컴퓨트 예산 증가에 따라 동등하게 스케일링되어야 함을 의미합니다.
더 작은 모델들은 주어진 추론 예산에 대한 성능을 개선하기 위해 상당히 더 많은 토큰으로 훈련되며, 이는 Touvron et al. (2023a)에서 옹호된 접근법과 유사합니다. LLaMA 모델들에서 보여준 이러한 접근법은 작은 모델도 충분한 데이터로 훈련하면 큰 모델과 경쟁할 수 있는 성능을 달성할 수 있음을 입증했습니다.
포괄적인 데이터 품질 관리 시스템
연구진은 모든 데이터셋에 품질 필터를 적용하여 휴리스틱 규칙과 모델 기반 분류기를 모두 사용했습니다. 이러한 다층적 필터링 접근법은 데이터의 기술적 품질과 내용적 적절성을 동시에 보장합니다.
휴리스틱 규칙은 명시적으로 정의된 기준에 따라 데이터를 필터링하는 반면, 모델 기반 분류기는 학습된 패턴을 통해 더 미묘한 품질 문제를 식별할 수 있습니다. 이러한 이중 접근법은 대규모 데이터셋에서 일관된 품질을 유지하는 데 필수적입니다.
또한 정책에 따라 유해한 콘텐츠를 제거하기 위한 안전 필터링을 수행했습니다. 이는 모델이 부적절하거나 해로운 내용을 학습하지 않도록 보장하는 중요한 단계입니다.
평가 무결성 보장을 위한 데이터 중복 제거
평가의 무결성을 유지하기 위해, 연구진은 훈련에 데이터를 사용하기 전에 훈련 코퍼스에 있을 수 있는 평가 데이터를 검색하고 제거했습니다. 이는 모델이 평가 데이터를 사전에 학습하여 성능이 인위적으로 부풀려지는 것을 방지하는 중요한 조치입니다.
이러한 데이터 중복 제거 과정은 특히 대규모 웹 크롤링 데이터에서 중요합니다. 웹상의 많은 콘텐츠가 학술 논문, 벤치마크 데이터셋, 또는 평가 문제들을 포함할 수 있기 때문에, 이러한 내용이 훈련 데이터에 포함되면 모델의 실제 일반화 능력을 정확히 평가하기 어려워집니다.
데이터 혼합 최적화와 단계적 훈련 전략
최종 데이터 혼합과 가중치는 더 작은 모델에서의 절제 연구(ablation studies)를 통해 결정되었습니다. 이러한 체계적 접근법은 각 데이터 소스의 기여도를 정량적으로 평가하고 최적의 조합을 찾는 데 도움이 됩니다.
연구진은 훈련 중 혼합 구성을 변경하는 단계적 훈련을 적용했으며, 훈련 말기에 도메인 관련 데이터의 가중치를 증가시켰습니다. 이러한 커리큘럼 학습 접근법은 모델이 초기에는 일반적인 언어 이해 능력을 개발하고, 후기에는 특정 도메인의 전문 지식을 강화할 수 있게 합니다.
단계적 훈련의 수학적 표현은 다음과 같이 나타낼 수 있습니다.
\[w_i(t) = w_{i,base} + \alpha(t) \cdot w_{i,domain}\]여기서 $w_i(t)$는 시간 $t$에서 데이터 소스 $i$의 가중치, $w_{i,base}$는 기본 가중치, $\alpha(t)$는 시간에 따라 증가하는 도메인 특화 가중치 함수입니다.
데이터 품질의 중요성과 미래 연구 방향
연구진은 데이터 품질이 고성능 모델을 위한 중요한 요소라고 강조하며, 사전 훈련을 위한 최적의 데이터셋 분포를 찾는 것과 관련하여 많은 흥미로운 질문들이 남아있다고 믿고 있습니다.
데이터 품질의 중요성은 단순히 양적 측면을 넘어서 질적 측면까지 포괄합니다. 고품질 데이터는 모델의 추론 능력, 사실적 정확성, 그리고 일반화 성능에 직접적인 영향을 미칩니다. 특히 멀티모달 환경에서는 서로 다른 모달리티 간의 정렬과 일관성이 추가적인 품질 고려사항이 됩니다.
미래 연구에서는 다음과 같은 영역들이 중요할 것으로 예상됩니다.
데이터 소스 간의 최적 균형 찾기, 도메인별 데이터의 효과적인 통합 방법, 멀티모달 데이터에서의 모달리티 간 정렬 최적화, 그리고 동적 데이터 혼합 전략의 개발 등이 포함됩니다. 이러한 연구들은 향후 더욱 강력하고 효율적인 멀티모달 모델 개발의 기반이 될 것입니다.
평가
Gemini 모델들은 네이티브 멀티모달 모델로서, 텍스트, 이미지, 오디오, 비디오에 대해 공동으로 훈련되었습니다. 이러한 공동 훈련이 각 도메인에서 강력한 능력을 갖춘 모델을 만들 수 있는지에 대한 중요한 질문이 있었는데, 연구진은 이것이 가능함을 발견했습니다. Gemini 모델들은 텍스트, 이미지, 오디오, 비디오 벤치마크 전반에 걸쳐 새로운 최첨단 성능을 달성했습니다.
텍스트 능력 평가
학술 벤치마크에서의 성과
연구진은 사전 훈련 및 사후 훈련된 Gemini Pro와 Ultra 모델을 외부 대규모 언어 모델들과 이전 최고 모델인 PaLM 2와 비교하여 추론, 독해, STEM, 코딩을 다루는 일련의 텍스트 기반 학술 벤치마크에서 평가했습니다.
벤치마크 | Gemini Ultra | Gemini Pro | GPT-4 | GPT-3.5 | PaLM 2-L |
---|---|---|---|---|---|
MMLU | 90.04% CoT@32 | 83.7% 5-shot | 86.4% 5-shot | 70% 5-shot | 78.4% 5-shot |
GSM8K | 94.4% Maj1@32 | 86.5% Maj1@32 | 92.0% SFT & 5-shot CoT | 57.1% 5-shot | 80.0% 5-shot |
MATH | 53.2% 4-shot | 32.6% 4-shot | 50.3% | 34.1% 4-shot | 34.4% 4-shot |
HumanEval | 74.4% 0-shot | 67.7% 0-shot | 67.0% 0-shot | 48.1% 0-shot | 70.0% 0-shot |
Natural2Code | 74.9% 0-shot | 69.6% 0-shot | 73.9% 0-shot | 62.3% 0-shot | - |
전반적으로 Gemini Pro는 GPT-3.5와 같은 추론 최적화 모델들을 능가하고 가장 강력한 기존 모델들과 비교할 만한 성능을 보였으며, Gemini Ultra는 모든 현재 모델들을 능가했습니다.
MMLU에서의 획기적 성과
MMLU 벤치마크에서 Gemini Ultra는 90.04%의 정확도로 모든 기존 모델을 능가했습니다. MMLU는 57개 과목에 걸친 지식을 측정하는 종합적인 시험 벤치마크로, 벤치마크 저자들이 측정한 인간 전문가 성능은 89.8%입니다. Gemini Ultra는 이 임계값을 초과한 최초의 모델이 되었으며, 이전 최첨단 결과는 86.4%였습니다.
높은 성능을 달성하기 위해서는 법학, 생물학, 역사 등 많은 도메인에 걸친 전문 지식과 독해 및 추론 능력이 필요합니다. 연구진은 Gemini Ultra가 모델 불확실성을 고려하는 체인 오브 소트 프롬프팅 접근법과 결합될 때 최고 정확도를 달성한다는 것을 발견했습니다.
이 방법에서 모델은 k개의 샘플(예: 8개 또는 32개)로 체인 오브 소트를 생성합니다. 사전 설정된 임계값(검증 분할을 기반으로 선택됨) 이상의 합의가 있으면 이 답을 선택하고, 그렇지 않으면 체인 오브 소트 없이 최대 우도 선택을 기반으로 한 탐욕적 샘플로 되돌아갑니다.
수학 영역에서의 강력한 성능
모델의 분석 능력을 벤치마킹하는 데 일반적으로 사용되는 수학 분야에서 Gemini Ultra는 초등학교 시험과 경쟁 수준의 문제 세트 모두에서 강력한 성능을 보였습니다.
초등학교 수학 벤치마크인 GSM8K에서 Gemini Ultra는 체인 오브 소트 프롬프팅과 자기 일관성을 사용하여 94.4%의 정확도에 도달했으며, 이는 동일한 프롬프팅 기법을 사용한 이전 최고 정확도 92%를 능가합니다.
중고등학교 수학 경쟁에서 추출한 더 어려운 수학 문제들(MATH 벤치마크)에서도 유사한 긍정적 추세가 관찰되었으며, Gemini Ultra 모델은 4-shot 프롬프팅을 사용하여 53.2%에 도달하여 모든 경쟁 모델을 능가했습니다.
모델은 American Mathematical Competitions(2022년과 2023년의 150개 문제)에서 파생된 더욱 어려운 작업에서도 최첨단을 능가했습니다. 작은 모델들은 이 도전적인 작업에서 무작위에 가까운 점수를 기록하며 성능이 저조했지만, Gemini Ultra는 문제의 32%를 해결할 수 있었으며, 이는 GPT-4의 30% 해결률과 비교됩니다.
코딩 능력의 탁월함
Gemini Ultra는 현재 대규모 언어 모델의 인기 있는 사용 사례인 코딩에서도 뛰어난 성과를 보였습니다. 연구진은 많은 기존 및 내부 벤치마크에서 모델을 평가했으며, AlphaCode 2와 같은 더 복잡한 추론 시스템의 일부로서의 성능도 측정했습니다.
예를 들어, 함수 설명을 Python 구현으로 매핑하는 표준 코드 완성 벤치마크인 HumanEval에서 지시 조정된 Gemini Ultra는 문제의 74.4%를 올바르게 구현했습니다. 웹 누출이 없음을 보장하는 새로운 보류 평가 벤치마크인 Natural2Code에서 Gemini Ultra는 74.9%의 최고 점수를 달성했습니다.
데이터 오염 문제와 대응
이러한 벤치마크에서의 평가는 도전적이며 데이터 오염의 영향을 받을 수 있습니다. 연구진은 훈련 후 광범위한 누출 데이터 분석을 수행하여 여기서 보고하는 결과가 가능한 한 과학적으로 건전하도록 보장했지만, 여전히 일부 사소한 문제를 발견했고 LAMBADA와 같은 벤치마크에서는 결과를 보고하지 않기로 결정했습니다.
평가 과정의 일환으로, 인기 있는 벤치마크인 HellaSwag에서 연구진은 Gemini 모델 사전 훈련 세트에 포함되지 않았던 HellaSwag 훈련 세트에 해당하는 특정 웹사이트 추출물에 대한 추가 100회의 파인튜닝 단계가 1-shot 프롬프팅으로 측정했을 때 Gemini Pro의 검증 정확도를 89.6%로, Gemini Ultra를 96.0%로 향상시킨다는 것을 발견했습니다. 이는 벤치마크 결과가 사전 훈련 데이터셋 구성에 취약함을 시사합니다.
연구진은 누출된 데이터가 없는 더 견고하고 미묘한 표준화된 평가 벤치마크의 필요성이 있다고 믿습니다. 따라서 WMT23 및 Math-AMC 2022-2023 문제와 같이 최근 출시된 여러 새로운 보류 평가 데이터셋이나 Natural2Code와 같이 웹이 아닌 소스에서 내부적으로 생성된 데이터셋에서 Gemini 모델을 평가했습니다.
능력 동향 분석
연구진은 6가지 서로 다른 능력에서 50개 이상의 벤치마크로 구성된 종합적인 하네스에서 Gemini 모델 패밀리의 능력 동향을 조사했습니다. 이러한 능력들은 다음과 같습니다.
- 사실성(Factuality): 개방형/폐쇄형 검색 및 질문 답변 작업
- 긴 컨텍스트(Long-Context): 긴 형태의 요약, 검색 및 질문 답변 작업
- 수학/과학(Math/Science): 수학적 문제 해결, 정리 증명, 과학 시험을 위한 작업
- 추론(Reasoning): 산술, 과학, 상식 추론이 필요한 작업
- 다국어(Multilingual): 여러 언어에서의 번역, 요약, 추론 작업
모델 크기 증가에 따른 일관된 품질 향상이 관찰되었으며, 특히 추론, 수학/과학, 요약, 긴 컨텍스트에서 두드러졌습니다. Gemini Ultra는 6가지 능력 모두에서 최고의 모델입니다. Gemini 모델 패밀리에서 두 번째로 큰 모델인 Gemini Pro도 서비스하기에 훨씬 더 효율적이면서도 상당히 경쟁력이 있습니다.
Nano 모델의 온디바이스 성능
AI를 사용자에게 더 가깝게 가져다주기 위해, 연구진은 온디바이스 배포를 위해 설계된 Gemini Nano 1과 Nano 2 모델에 대해 논의합니다. 이러한 모델들은 작업별 파인튜닝을 통해 요약 및 독해 작업에서 뛰어난 성과를 보입니다.
벤치마크 | Gemini Nano 1 | Gemini Nano 2 | Pro 대비 정규화 |
---|---|---|---|
BoolQ | 71.6% | 79.3% | 0.81 / 0.90 |
TydiQA | 68.9% | 74.2% | 0.85 / 0.91 |
Natural Questions | 38.6% / 18.8% | 46.5% / 24.8% | 0.69 / 0.83 |
BIG-Bench-Hard | 34.8% | 42.4% | 0.47 / 0.58 |
MATH | 13.5% | 22.8% | 0.41 / 0.70 |
MMLU | 45.9% | 55.8% | 0.64 / 0.78 |
Nano-1과 Nano-2 모델 크기는 각각 1.8B와 3.25B 파라미터에 불과합니다. 크기에도 불구하고 사실성, 즉 검색 관련 작업에서 예외적으로 강력한 성능을 보이며, 추론, STEM, 코딩, 멀티모달, 다국어 작업에서 상당한 성능을 보입니다. 새로운 능력이 더 광범위한 플랫폼과 디바이스 세트에 접근 가능해짐에 따라, Gemini 모델들은 모든 사람에게 접근성을 확장합니다.
다국어 능력
Gemini 모델의 다국어 능력은 다국어 이해, 교차 언어 일반화, 여러 언어에서의 텍스트 생성이 필요한 다양한 작업 세트를 사용하여 평가되었습니다. 이러한 작업에는 기계 번역 벤치마크(고-중-저 자원 번역을 위한 WMT 23; 저자원 및 매우 저자원 언어를 위한 Flores, NTREX), 요약 벤치마크(XLSum, Wikilingua), 그리고 일반적인 벤치마크의 번역된 버전(11개 언어로 전문적으로 번역된 MGSM)이 포함됩니다.
기계 번역 성능
번역은 풍부한 역사를 가진 기계 학습의 표준적인 벤치마크입니다. 연구진은 사후 훈련된 Gemini API Ultra 모델을 WMT 23 번역 벤치마크의 전체 언어 쌍 세트에서 퓨 샷 설정으로 평가했습니다.
언어 자원 수준 | Gemini Ultra | Gemini Pro | GPT-4 | PaLM 2-L |
---|---|---|---|---|
고자원 | 74.2 | 71.7 | 74.0 | 72.6 |
중자원 | 74.7 | 71.8 | 73.6 | 72.7 |
영어 외 번역 | 74.8 | 71.5 | 73.6 | 72.2 |
영어로 번역 | 73.9 | 72.0 | 74.1 | 73.4 |
전체 언어 | 74.4 | 71.7 | 73.8 | 72.7 |
전반적으로 Gemini Ultra(및 다른 Gemini 모델들)는 영어에서 다른 언어로의 번역에서 놀랍도록 우수한 성능을 보였으며, 고자원, 중자원, 저자원 언어에서 영어 외 번역 시 LLM 기반 번역 방법들을 능가했습니다.
매우 저자원 언어들에 대해서도 평가했습니다. 이러한 언어들은 Flores-200(Tamazight와 Kanure), NTREX(North Ndebele), 내부 벤치마크(Quechua)의 꼬리 부분에서 샘플링되었습니다. 이러한 언어들에 대해 영어에서와 영어로의 양방향에서 Gemini Ultra는 1-shot 설정에서 평균 chrF 점수 27.0을 달성했으며, 차선책인 PaLM 2-L은 25.3점을 달성했습니다.
다국어 수학 및 요약
번역을 넘어서, 연구진은 Gemini 모델들이 다양한 언어에 걸친 도전적인 작업에서 얼마나 잘 수행하는지 평가했습니다. 수학 벤치마크 GSM8K의 번역된 변형인 MGSM을 구체적으로 조사했습니다.
벤치마크 | Gemini Ultra | Gemini Pro | GPT-4 | PaLM 2-L |
---|---|---|---|---|
MGSM (8-shot) | 79.0% | 63.5% | 74.5% | 74.7% |
XLsum (3-shot) | 17.6 | 16.2 | - | 15.4 |
Wikilingua | 48.9 | 47.8 | - | 50.4 |
Gemini Ultra는 8-shot 설정에서 모든 언어에 걸쳐 평균 79.0%의 정확도를 달성하여 74.7%를 기록한 PaLM 2-L보다 앞섰습니다. 전반적으로 다양한 다국어 벤치마크 세트는 Gemini 패밀리 모델들이 광범위한 언어 커버리지를 가지고 있어 저자원 언어가 있는 지역과 지역에도 도달할 수 있음을 보여줍니다.
긴 컨텍스트 처리 능력
Gemini 모델들은 32,768 토큰의 시퀀스 길이로 훈련되었으며, 컨텍스트 길이를 효과적으로 활용한다는 것을 발견했습니다. 먼저 합성 검색 테스트를 실행하여 이를 확인했습니다. 컨텍스트 시작 부분에 키-값 쌍을 배치하고, 긴 필러 텍스트를 추가한 다음, 특정 키와 연관된 값을 요청합니다. Ultra 모델이 전체 컨텍스트 길이에 걸쳐 쿼리될 때 98%의 정확도로 올바른 값을 검색한다는 것을 발견했습니다.
긴 문서의 보류 세트에서 토큰 인덱스 대비 음의 로그 우도(NLL)를 플롯하여 이를 더 조사했습니다. NLL이 전체 32K 컨텍스트 길이까지 시퀀스 위치에 따라 감소한다는 것을 발견했습니다. Gemini 모델의 더 긴 컨텍스트 길이는 문서 검색 및 비디오 이해와 같은 새로운 사용 사례를 가능하게 합니다.
사실성 평가
사실성은 모델의 훈련 및 배포에서 핵심 초점입니다. 연구진은 Gemini API 모델의 사실성에 대한 세 가지 측면을 평가했습니다.
-
폐쇄형 사실성: 주어진 소스 없이 사실 추구 프롬프트가 제공될 때, Gemini API 모델은 잘못된 정보를 환각해서는 안 됩니다.
-
귀속: 주어진 컨텍스트에 근거한 응답을 생성하도록 지시받을 때, Gemini API 모델이 컨텍스트에 대한 최고 수준의 충실성을 가진 응답을 생성하도록 보장하는 것을 목표로 합니다.
-
헤징: "답할 수 없는" 입력으로 프롬프트될 때, Gemini API 모델은 환각을 피하기 위해 헤징하여 응답을 제공할 수 없음을 인정해야 합니다.
평가 항목 | 사실성 적응 없음 | 최종 사후 훈련 |
---|---|---|
사실성 (부정확률) | 6.7% [5.8%, 7.8%] | 3.8% [3.1%, 4.8%] |
귀속 (AIS) | 40.2% [37.9%, 42.5%] | 60.0% [57.6%, 62.1%] |
헤징 (정확도) | 0% | 69.3% |
사실성 중심 적응이 없는 버전과 비교하여 부정확률이 절반으로 줄어들고, 귀속 정확도가 50% 증가했으며, 모델이 제공된 헤징 세트 작업에서 70%(0%에서 증가)를 성공적으로 헤징했습니다.
복합 추론 시스템
Gemini 모델들은 검색 및 도구 사용과 같은 추가 기법과 결합되어 더 복잡한 다단계 문제를 해결할 수 있는 강력한 추론 시스템을 만들 수 있습니다. 이러한 시스템의 한 예가 경쟁 프로그래밍 문제 해결에 뛰어난 새로운 최첨단 에이전트인 AlphaCode 2입니다.
AlphaCode 2는 경쟁 프로그래밍 데이터에 조정된 Gemini Pro의 특수 버전을 사용하여 가능한 프로그램 공간에 대한 대규모 검색을 수행합니다. 이후 맞춤형 필터링, 클러스터링, 재순위 메커니즘이 뒤따릅니다. Gemini Pro는 제안 솔루션 후보를 생성하는 코딩 모델과 가장 유망한 코드 후보를 인식하고 추출하는 데 활용되는 보상 모델 모두로 파인튜닝됩니다.
AlphaCode 2는 AlphaCode와 동일한 플랫폼인 Codeforces에서 디비전 1과 2의 12개 대회에서 총 77개 문제로 평가되었습니다. AlphaCode 2는 이러한 경쟁 문제의 43%를 해결하여, 25%를 해결한 이전 기록 보유자인 AlphaCode 시스템 대비 1.7배 개선을 보였습니다.
이를 경쟁 순위에 매핑하면, Gemini Pro를 기반으로 구축된 AlphaCode 2는 평균적으로 추정 85번째 백분위수에 위치합니다. 즉, 참가자의 85%보다 더 나은 성능을 보입니다. 이는 경쟁자의 50%만을 능가했던 AlphaCode에 비해 상당한 발전입니다.
강력한 사전 훈련된 모델과 검색 및 추론 메커니즘의 구성은 더 일반적인 에이전트를 향한 흥미로운 방향입니다. 또 다른 핵심 요소는 다양한 모달리티에 걸친 깊은 이해입니다.
멀티모달 능력
Gemini 모델들은 네이티브 멀티모달 모델입니다. 이러한 모델들은 모달리티 간 능력을 원활하게 결합하는 독특한 능력을 보여줍니다(예: 표, 차트, 그림에서 정보와 공간적 레이아웃 추출)과 언어 모델의 강력한 추론 능력(예: 수학 및 코딩에서의 최첨단 성능)을 결합합니다. 또한 모델들은 입력의 세밀한 세부사항을 식별하고, 공간과 시간에 걸쳐 컨텍스트를 집계하며, 시간적으로 관련된 비디오 프레임 및/또는 오디오 입력 시퀀스에 이러한 능력을 적용하는 강력한 성능을 보여줍니다.
이미지 이해 능력
연구진은 사후 훈련된 Gemini API 모델을 네 가지 서로 다른 능력에서 평가했습니다. VQAv2와 같은 캡셔닝 또는 질문 답변 작업을 사용한 고수준 객체 인식; TextVQA 및 DocVQA와 같이 모델이 저수준 세부사항을 인식해야 하는 작업을 사용한 세밀한 전사; ChartQA 및 InfographicVQA 작업을 사용한 입력 레이아웃의 공간적 이해가 필요한 차트 이해; 그리고 Ai2D, MathVista, MMMU와 같은 작업을 사용한 멀티모달 추론입니다.
제로샷 QA 평가에서 모델은 특정 벤치마크에 맞춘 짧은 답변을 제공하도록 지시받았습니다. 모든 수치는 탐욕적 샘플링을 사용하고 외부 OCR 도구를 사용하지 않고 얻어졌습니다.
벤치마크 | Gemini Ultra | Gemini Pro | Gemini Nano 2 | Gemini Nano 1 | GPT-4V | 이전 SOTA |
---|---|---|---|---|---|---|
MMMU (val) | 59.4% pass@1 | 47.9% | 32.6% | 26.3% | 56.8% | 56.8% GPT-4V |
TextVQA (val) | 82.3% | 74.6% | 65.9% | 62.5% | 78.0% | 79.5% Google PaLI-3 |
DocVQA (test) | 90.9% | 88.1% | 74.3% | 72.2% | 88.4% | 88.4% GPT-4V |
ChartQA (test) | 80.8% | 74.1% | 51.9% | 53.6% | 78.5% | 79.3% Google DePlot |
InfographicVQA (test) | 80.3% | 75.2% | 54.5% | 51.1% | 75.1% | 75.1% GPT-4V |
MathVista (testmini) | 53.0% | 45.2% | 30.6% | 27.3% | 49.9% | 49.9% GPT-4V |
AI2D (test) | 79.5% | 73.9% | 51.0% | 37.9% | 78.2% | 81.4% Google PaLI-X |
VQAv2 (test-dev) | 77.8% | 71.2% | 67.5% | 62.7% | 77.2% | 86.1% Google PaLI-X |
Gemini Ultra는 외부 OCR 엔진을 사용하지 않고도('픽셀 전용') 자연 이미지, 텍스트, 문서, 그림에 대한 OCR 관련 이미지 이해 작업에서 특히 제로샷으로도 기존 접근법들을 일관되게 능가합니다. 회색으로 강조된 많은 기존 접근법들은 각각의 작업에 대해 파인튜닝을 수행하므로, 0-shot과의 비교가 완전히 동등하지는 않습니다.
Gemini Ultra는 광범위한 이미지 이해 벤치마크에서 최첨단 성능을 달성합니다. 자연 이미지와 스캔된 문서에 대한 질문 답변뿐만 아니라 인포그래픽, 차트, 과학 다이어그램 이해와 같은 다양한 작업 세트에서 강력한 성능을 달성합니다. 다른 모델들(특히 GPT-4V)의 공개적으로 보고된 결과와 비교할 때, Gemini 모델은 제로샷 평가에서 상당한 차이로 더 우수합니다.
MMMU 벤치마크에서의 탁월한 성과
분야 | Gemini Ultra (0-shot) | GPT-4V (0-shot) |
---|---|---|
예술 & 디자인 | 74.2% | 65.8% |
비즈니스 | 62.7% | 59.3% |
과학 | 49.3% | 54.7% |
보건 & 의학 | 71.3% | 64.7% |
인문학 & 사회과학 | 78.3% | 72.5% |
기술 & 공학 | 53.0% | 36.7% |
전체 | 62.4% | 56.8% |
MMMU 벤치마크는 최근 출시된 평가 벤치마크로, 이미지에 대한 질문들로 구성되어 있으며 이를 해결하기 위해서는 대학 수준의 지식이 필요한 6개 분야의 여러 과목을 다룹니다. Gemini Ultra는 이 벤치마크에서 최고 점수를 달성하여 최첨단 결과를 5% 포인트 이상 향상시켰으며, 6개 분야 중 5개에서 이전 최고 결과를 능가하여 멀티모달 추론 능력을 보여줍니다.
다국어 이미지 이해 능력
언어 | Gemini Ultra | Gemini Pro | Google PaLI-X |
---|---|---|---|
영어 | 86.4 | 87.1 | 77.8 |
프랑스어 | 77.9 | 76.7 | 62.5 |
힌디어 | 31.1 | 29.8 | 22.2 |
현대 히브리어 | 54.5 | 52.6 | 38.7 |
루마니아어 | 39.0 | 37.7 | 30.2 |
태국어 | 86.7 | 77.0 | 56.0 |
중국어 | 33.3 | 30.2 | 27.7 |
평균 (7개 언어) | 58.4 | 55.9 | 45.0 |
Gemini 모델들은 또한 모달리티와 다양한 글로벌 언어 세트에서 동시에 작동할 수 있으며, 이미지 이해 작업(예: 아이슬란드어 텍스트가 포함된 이미지)과 생성 작업(예: 광범위한 언어에 대한 이미지 설명 생성) 모두에서 가능합니다. Crossmodal-3600(XM-3600) 벤치마크의 선택된 언어 하위 집합에서 이미지 설명 생성 성능을 4-shot 설정에서 평가했으며, 모든 모델에 대해 파인튜닝 없이 Flamingo 평가 프로토콜을 사용했습니다. Gemini 모델들은 기존 최고 모델인 Google PaLI-X에 비해 상당한 개선을 달성했습니다.
멀티모달 추론의 실제 적용
위 그림은 Gemini Ultra의 멀티모달 추론 능력을 보여주는 예시입니다. 모델은 사용자가 제공한 서브플롯 세트를 재배열하는 matplotlib 코드를 생성하는 작업을 해결해야 합니다. 모델 출력은 여러 능력을 결합하여 이 작업을 성공적으로 해결함을 보여줍니다. (1) 플롯에 묘사된 함수들의 인식; (2) 서브플롯을 생성했을 코드를 추론하는 역 그래픽스; (3) 서브플롯을 원하는 위치에 배치하는 지시 따르기; (4) 사인 플롯이 3차원 플롯을 위해 자리를 비워야 하므로 지수 플롯은 원래 자리에 머물러야 한다고 추론하는 추상적 추론.
이는 Gemini Ultra의 네이티브 멀티모달성을 강조하고 이미지와 텍스트의 인터리브된 시퀀스에 걸친 더 복잡한 추론 능력을 암시합니다.
비디오 이해 능력
비디오 입력을 이해하는 것은 유용한 일반화 에이전트를 향한 중요한 단계입니다. 연구진은 훈련에서 보류된 여러 확립된 벤치마크에서 비디오 이해 능력을 측정했습니다. 이러한 작업들은 모델이 시간적으로 관련된 프레임 시퀀스를 이해하고 추론할 수 있는지를 측정합니다.
각 비디오 작업에 대해, 각 비디오 클립에서 16개의 균등하게 간격을 둔 프레임을 샘플링하여 Gemini 모델에 입력했습니다. YouTube 비디오 데이터셋(NextQA와 Perception 테스트를 제외한 모든 데이터셋)의 경우, 2023년 11월에 여전히 공개적으로 이용 가능했던 비디오들에서 Gemini 모델을 평가했습니다.
작업 | Gemini Ultra | Gemini Pro | 퓨샷 SOTA |
---|---|---|---|
VATEX (test) | 62.7 (4-shots) | 57.4 (4-shots) | 56.0 DeepMind Flamingo |
VATEX ZH (test) | 51.3 (4-shots) | 50.0 (4-shots) | - |
YouCook2 (val) | 135.4 (4-shots) | 123.2 (4-shots) | 74.5 DeepMind Flamingo |
NextQA (test) | 29.9 (0-shot) | 28.0 (0-shot) | 26.7 DeepMind Flamingo |
ActivityNet-QA (test) | 52.2 (0-shot) | 49.8 (0-shot) | 45.3 Video-LLAVA |
Perception Test MCQA (test) | 54.7 (0-shot) | 51.1 (0-shot) | 46.3 SeViLA |
Gemini Ultra는 다양한 퓨샷 비디오 캡셔닝 작업뿐만 아니라 제로샷 비디오 질문 답변 작업에서 최첨단 성능을 달성합니다. 이는 여러 프레임에 걸친 강력한 시간적 추론 능력을 보여줍니다.
이미지 생성 능력
Gemini 모델들은 모델의 이미지 표현 능력을 제한할 수 있는 중간 자연어 설명에 의존하지 않고 네이티브하게 이미지를 출력할 수 있습니다. 이는 모델이 퓨샷 설정에서 이미지와 텍스트의 인터리브된 시퀀스를 사용하는 프롬프트로 이미지를 생성할 수 있게 하는 독특한 기능입니다.
위 그림은 1-shot 설정에서의 이미지 생성 예시를 보여줍니다. Gemini Ultra 모델은 사용자가 두 가지 색상(파란색과 노란색)을 제공하고 실로 귀여운 파란 고양이나 노란 귀를 가진 파란 개를 만드는 이미지 제안을 하는 인터리브된 이미지와 텍스트의 한 예시로 프롬프트됩니다. 그런 다음 모델에게 두 가지 새로운 색상(분홍색과 초록색)이 주어지고 이러한 색상을 사용하여 무엇을 만들지에 대한 두 가지 아이디어를 요청받습니다. 모델은 실로 분홍 씨를 가진 귀여운 초록 아보카도나 분홍 귀를 가진 초록 토끼를 만드는 제안과 함께 이미지와 텍스트의 인터리브된 시퀀스를 성공적으로 생성합니다.
오디오 이해 능력
연구진은 Gemini Nano-1과 Gemini Pro 모델을 다양한 공개 벤치마크에서 평가하고 Universal Speech Model(USM)과 Whisper(large-v2 또는 large-v3)와 비교했습니다. 이러한 벤치마크에는 FLEURS, VoxPopuli, Multi-lingual Librispeech와 같은 자동 음성 인식(ASR) 작업뿐만 아니라 다양한 언어를 영어로 번역하는 음성 번역 작업인 CoVoST 2가 포함됩니다.
작업 | 메트릭 | Gemini Pro | Gemini Nano-1 | Whisper | USM |
---|---|---|---|---|---|
YouTube (en-us) | WER (↓) | 4.9% | 5.5% | 6.5% (v3) | 6.2% |
Multilingual Librispeech (en-us) | WER (↓) | 4.8% | 5.9% | 6.2% (v2) | 7.0% |
FLEURS (62 lang) | WER (↓) | 7.6% | 14.2% | 17.6% (v3) | 11.8% |
VoxPopuli (14 lang) | WER (↓) | 9.1% | 9.5% | 15.9% (v2) | 13.4% |
CoVoST 2 (21 lang) | BLEU (↑) | 40.1 | 35.4 | 29.1 (v2) | 30.7 |
Gemini Pro 모델은 모든 ASR 및 AST 작업에서 영어와 다국어 테스트 세트 모두에 대해 USM 및 Whisper 모델을 크게 능가합니다. FLEURS에서는 모델이 FLEURS 훈련 데이터셋으로도 훈련되었기 때문에 USM 및 Whisper에 비해 큰 향상이 있습니다. 그러나 FLEURS 데이터셋 없이 동일한 모델을 훈련하면 WER이 15.8이 되어 여전히 Whisper를 능가합니다.
오디오 처리 품질 분석
도메인 | 정답 | USM | Gemini Pro |
---|---|---|---|
Fleurs | Scotturb bus 403 travels regularly to Sintra, stopping at Cabo da Roca. | Scotboard bus four3 traversed regularly to Centra stopping at Cabo de Roga. | Scotturb bus 403 travels regularly to Sintra, stopping at Cabo da Roca. |
Fleurs | The archipelago lies 120 km north of the Peninsula. The largest is King George Island, with the settlement of Villa Las Estrellas. | The archipelago lines 120 km north of peninsula. The largest is Kingurch island with the settlement of Cua Losas. | The archipelago lies 120 km north of the Peninsula. The largest is King George Island, with the settlement of Villa Las Estrellas. |
추가적인 오류 분석에서 Gemini Pro는 특히 희귀한 단어와 고유명사에서 더 이해하기 쉬운 응답을 생성한다는 것을 발견했습니다.
모달리티 결합 능력
멀티모달 시연은 종종 단일 모달리티(보통 이미지)와 인터리브된 텍스트의 조합을 포함합니다. 연구진은 오디오와 이미지의 시퀀스를 네이티브하게 처리하는 능력을 보여줍니다.
오믈렛 만들기에 대한 요리 시나리오를 고려해보면, 오디오와 이미지의 시퀀스로 모델에 프롬프트를 제공합니다. 다음 표는 오믈렛 요리의 다음 단계에 대해 사진을 제공하고 구두로 질문하는 모델과의 턴별 상호작용을 나타냅니다.
입력 이미지 | 입력 오디오 (전사됨) | 모델 응답: 텍스트 |
---|---|---|
[달걀과 야채 재료 이미지] | 이 재료들로 야채 오믈렛을 만드는 첫 번째 단계는 무엇인가요? | 달걀을 그릇에 깨뜨려 넣고 휘저어 주세요. |
[팬에서 요리 중인 오믈렛 이미지] | 지시에 따라 오믈렛을 만들기 시작했는데, 지금 준비가 되었나요? | 거의 준비된 것 같습니다. 다른 면을 요리하기 위해 뒤집을 수 있습니다. |
[아직 익지 않은 오믈렛 이미지] | 왜 아직 준비되지 않았나요? | 달걀이 아직 흐물흐물하기 때문에 준비되지 않았습니다. |
[완성된 오믈렛 이미지] | 지금은 어떤가요? | 이제 준비되었습니다. 불에서 내려서 서빙할 수 있습니다. |
모델 응답 텍스트는 합리적으로 정확하며, 모델이 오믈렛이 완전히 익었는지 평가하기 위해 세밀한 이미지 세부사항을 처리한다는 것을 보여줍니다.
사후 훈련 모델
대규모 사전 훈련 후, 연구진은 사후 훈련을 적용하여 사전 훈련된 모델 위에서 추가 학습을 수행함으로써 모델의 숙련도를 확장하고 다양한 능력을 가능하게 합니다. 구체적으로는 전반적인 품질을 개선하고, 코딩 및 다국어와 같은 목표 능력을 향상시키며, 정렬 및 안전 기준이 충족되도록 하는 것을 목표로 합니다. 이 섹션에서는 Gemini Apps와 Gemini API 모델 변형의 공통점과 차이점을 강조하면서 사후 훈련에 대한 접근 방식을 논의합니다.
Gemini Apps: Gemini와 Gemini Advanced
Gemini과 Gemini Advanced는 핵심 사후 훈련된 Gemini Apps 모델과 이를 둘러싼 시스템으로 구성된 Google의 AI 모델 패밀리에 직접 접근할 수 있는 서비스를 제공합니다. 이러한 모델들은 Gemini 사전 훈련된 모델 위에 특화된 사후 훈련을 적용하여 생성됩니다. 현재 Gemini는 Pro 1.0에 접근을 제공하고 Gemini Advanced는 Ultra 1.0에 접근을 제공합니다.
핵심 모델을 넘어서, 시스템은 모델이 외부 도구(Google Flights, Maps, Google Workspace 등)와 상호작용하는 방식과 응답을 생성하는 방식(필터링, 순위 매기기, 스트리밍)을 결정합니다. 대화형 AI 영역은 여러 도전과제를 제시합니다.
다중 턴 상호작용에서 사용자의 요청을 어떻게 이해할 것인가? 응답이 안전하고 사실에 근거하며 도움이 되도록 어떻게 보장할 것인가? 모델 외부의 도구를 사용하여 사용자가 작업을 완수할 수 있도록 어떻게 도울 것인가? 이러한 도전과제들에 대한 접근 방식을 다음 섹션들에서 논의합니다.
Gemini APIs: Google AI Studio와 Cloud Vertex AI
개발자 중심의 Gemini API 모델들은 대화형 및 비대화형 사용 사례를 모두 지원하도록 설계되었습니다. 이러한 모델들은 사용하기 쉬운 API를 통해 Google AI Studio와 Cloud Vertex AI를 통해 이용할 수 있습니다.
Google AI Studio는 API 키로 앱을 빠르게 프로토타입하고 출시할 수 있는 무료 웹 기반 개발자 도구입니다. Vertex AI는 개발자들이 다양한 도구, 완전 관리형 인프라, 내장된 엔터프라이즈 보안 및 개인정보 보호 설정을 통해 Gemini API 모델을 활용할 수 있게 하는 포괄적인 AI 플랫폼입니다.
Gemini API는 Gemini API 모델을 모든 프로덕션 제품이나 워크플로우에 쉽게 통합할 수 있게 하여, 개발자들이 다양한 모달리티에 걸쳐 추론할 수 있는 애플리케이션을 구축할 수 있도록 지원합니다.
사후 훈련 방법 및 데이터
Gemini API와 Apps 변형을 생산하기 위한 Gemini 모델의 사후 훈련은 여러 단계를 포함합니다. 모든 단계에서 신중한 데이터 큐레이션이 중요합니다.
첫째, 실제 사용 사례를 대표하는 다양한 프롬프트 세트를 수집합니다. 둘째, 주어진 프롬프트에 대해 모델의 출력이 어떠해야 하는지에 대한 시연 데이터에 대해 지도 파인튜닝(SFT)을 적용합니다. 이러한 접근법은 Cross-Task Generalization via Natural Language Crowdsourcing Instructions에서 제안된 자연어 지시를 통한 교차 작업 일반화 방법론과 유사한 원리를 따릅니다.
셋째, 주어진 프롬프트에 대한 다양한 가능한 응답을 추가로 수집하고, 이에 대한 피드백 데이터를 수집하여 보상 모델(RM)을 훈련합니다. 마지막으로, 훈련된 RM을 사용하여 인간 피드백으로부터의 강화학습(RLHF) 단계를 적용하여 모델의 출력을 인간의 선호도와 더욱 정렬시킵니다.
이러한 RLHF 접근법은 Training language models to follow instructions with human feedback에서 개발된 방법론을 기반으로 하며, 언어 모델이 사용자 지시를 더 안정적으로 따르도록 하는 세 단계 접근법을 활용합니다. 인간이 작성한 시연에 대한 지도 파인튜닝, 인간 선호도를 예측하는 보상 모델 훈련, 그리고 보상 모델을 보상 함수로 사용하는 강화학습입니다.
프롬프트 데이터 수집
프롬프트는 모델에 대한 사용자의 입력입니다. 가장 최근의 사용자 입력뿐만 아니라 이전 사용자-모델 상호작용도 포함할 수 있습니다. 연구진은 목표 프롬프트의 데이터셋을 큐레이션합니다. 이 데이터셋은 시연 및 피드백 데이터 수집의 기초 역할을 하며, 강화학습 중에 직접 사용됩니다.
다양한 중요한 사용 사례를 단일 턴 및 다중 턴 형식 모두에서 다루는 것이 중요합니다. 데이터 소스에는 벤더가 생성한 데이터, 제3자 라이선스 소스, 합성 접근법이 포함됩니다.
시연 데이터에 대한 SFT
SFT는 프롬프트가 주어졌을 때 원하는 목표 응답을 출력하도록 모델을 훈련합니다. 시연 데이터의 목표 응답은 인간 전문가가 직접 작성하거나, 모델이 생성한 후 경우에 따라 인간이 수정하거나 검토할 수 있습니다. 또한 능력, 사용 사례, 의미적 클러스터에 걸쳐 높은 데이터 다양성을 보장하기 위해 데이터 분석 도구와 휴리스틱을 사용합니다.
피드백 데이터에 대한 RM 훈련
피드백 데이터를 추가로 수집하는데, 여기서 인간 평가자들은 후보 응답에 대한 상대적 선호도와 주어진 프롬프트에 대한 개별 응답에 관한 피드백과 같은 피드백을 제공합니다. 많은 능력에 대해 상대적 선호도를 평가하는 것이 이상적인 응답을 시연하는 것보다 더 쉬운 작업입니다.
피드백 데이터는 창의성, 안전성, 사실성, 기타 능력 및 기타 목표 기준에 걸쳐 수집됩니다. 결과적인 인간 피드백 데이터의 유용성은 프롬프트 선택과 후보 응답을 생성하는 데 사용되는 샘플링 전략에 크게 의존한다는 것을 발견했습니다. 이 데이터를 사용하여 인간의 선호도와 가능한 한 밀접하게 정렬되는 보상을 출력하는 RM을 훈련합니다.
RLHF
모델에 인간 피드백으로부터의 강화학습을 적용하면 SFT만으로는 얻을 수 없는 추가적인 이득을 제공합니다. 연구진의 접근법은 RL이 지속적으로 RM의 경계를 밀어내는 반면, RM은 평가와 데이터 수집을 통해 지속적으로 개선되어 둘 다에서 점진적인 개선을 이끌어내는 반복적인 과정을 만듭니다.
이러한 반복적 접근법은 Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback에서 제안된 "반복적 온라인" RLHF 방법론과 유사하며, 신선한 인간 피드백 데이터를 사용하여 선호도 모델과 RL 정책을 주기적으로 업데이트하여 시간이 지남에 따라 데이터셋과 모델을 개선합니다.
평가
모델 출력에 대한 인간 선호도 평가는 성능 측정을 위한 중요한 신호를 제공합니다. 개발 과정의 일환으로, 연구진은 목표 능력에 걸쳐 광범위하게 인간 평가를 수행합니다. 인간 평가는 인간 평가자가 동일한 프롬프트에 대한 두 모델의 응답을 판단하는 나란히 블라인드 평가, 특정 능력에 대한 단일 응답 평가, 온라인 테스트로 구현됩니다.
또한 개발을 안내하고 온라인 성능을 지속적으로 모니터링하기 위해 인간 선호도를 충실히 모방하는 자동화된 평가 모델을 구축합니다.
모델 능력
위에서 설명한 일반적인 사후 훈련을 넘어서, 연구진은 핵심 능력 세트를 개선하기 위한 기법들을 적용합니다. 이러한 능력들은 현재 사용자 요구와 연구에서 영감을 받은 미래 애플리케이션에서 영감을 받은 다양한 사용 사례를 다룹니다. 사후 훈련 레시피는 창의성, 사실성, 안전성 등을 포함한 여러 목표의 균형을 신중하게 맞추도록 설계됩니다. 연구진은 안전성과 정렬에 특별히 중점을 두고 있으며, 따라서 이를 추가 전용 섹션에서 다룹니다.
지시 따르기
사용자의 프롬프트를 정확하게 따르는 것은 LLM의 기본적인 능력이며, 특히 이러한 모델들이 더욱 정교해지고 점점 더 복잡한 사용자 프롬프트를 받게 되면서 더욱 중요해집니다. 사용자 프롬프트는 세분성, 구체성, 요구사항(예: 내용, 형식, 길이)에서 다양합니다. 개별 지시는 또한 모호하거나, 선택적이거나, 심지어 불가능하거나 만족시키기 바람직하지 않을 수 있습니다.
연구진은 다양한 지시 따르기 범주 세트에 대한 데이터를 수집하여 Gemini Apps와 Gemini API 모델의 지시 따르기(IF) 능력을 개선합니다. 단어 수와 같이 프로그래밍적으로 검증 가능한 지시의 경우, 프롬프팅과 응답 편집을 통해 합성 데이터를 생성하여 그러한 지시가 만족되도록 보장합니다.
복잡한 프롬프트 평가
연구진은 여러 지시를 포함하는 복잡한 프롬프트에서의 성능을 조사하기 위해 모델이 각 지시를 얼마나 잘 준수하는지 평가하는 세밀한 평가 방법을 사용합니다. 인간 평가자들에게 프롬프트-응답 쌍과 프롬프트에 포함된 개별 (하위)지시 목록이 제시됩니다.
각 프롬프트는 하나에서 수십 개의 개별 지시를 가질 수 있으며, 주석자들은 각 지시가 응답에 의해 따라졌는지(또는 그렇지 않은지) 결정하는 작업을 맡습니다.
모델 | 지시별 정확도 | 전체 응답 정확도 |
---|---|---|
사후 훈련된 PaLM 2 | 59.5±3.0% | 25.5±3.3% |
Gemini (Pro 사용) | 77.8±2.0% | 38.5±3.6% |
Gemini Advanced (Ultra 사용) | 87.4±1.4% | 54.1±3.7% |
LLM에게 도전적이도록 설계된 다양한 지시를 포괄하는 다양한 복잡성의 지시가 있는 프롬프트의 내부 데이터셋에서 결과를 보고합니다. 지시별 정확도(평가 세트에서 따라진 하위 지시의 백분율)와 전체 응답 정확도(모든 하위 지시가 따라진 평가 세트 프롬프트의 백분율) 두 가지 메트릭을 보고합니다.
Gemini Advanced(Ultra 사용)는 평균 지시별 정확도가 90%에 가까워 Gemini(Pro 사용)과 사후 훈련된 PaLM 2 모델에 비해 상당한 개선을 나타냅니다. 따라지지 않은 하위 지시들이 응답 전반에 걸쳐 잘 분산되어 있다는 것을 발견했습니다. 결과적으로 Gemini Advanced의 전체 응답 정확도는 약 54%로 더 낮습니다. 이는 모델이 모든 지시를 완전히 만족시킬 수 있는 추가적인 여지가 있음을 나타냅니다.
도구 사용
LLM이 도구를 사용하도록 훈련함으로써 내부 지식을 넘어서 LLM 능력을 크게 확장합니다. 연구진은 Gemini Apps와 Gemini API 모델 모두에 대해 도구 사용을 코드 생성 문제로 취급하여 기본 모델의 기존 강력한 코딩 능력을 활용합니다.
모든 도구 호출은 도구 호출이 실행되는 코드 블록으로 표현됩니다. 이 과정을 통해 모델은 각 코드 블록에서 여러 도구를 구성할 수 있을 뿐만 아니라 도구 실행 결과를 관찰하고 반응할 수 있습니다.
추론 시에 사용자 프롬프트에 대한 응답을 생성하기 위해, 시스템은 LLM에서의 샘플링과 도구 코드 실행이 함께 작동하여 최종 응답을 생성하는 루프를 실행합니다.
Gemini Apps 모델
Gemini은 Google Workspace, Google Maps, YouTube, Google Flights, Google Hotels를 포함한 Gemini Extensions를 통해 다양한 도구를 활용합니다. 이러한 도구 사용 능력은 또한 Gemini이 Gmail, Docs, Slides, Sheets 등의 일부로 통합될 수 있게 합니다.
연구진은 Gemini 모델을 향상시키고 Gemini 모델을 추가 제품에 통합하기 위해 추가적인 도구 사용 능력을 제공하는 것을 목표로 하고 있습니다. 이러한 확장에 접근하는 것이 도움이 될 수 있는 작업에서 Gemini 성능을 평가하기 위한 내부 벤치마크를 만들었습니다.
이 벤치마크는 여행 계획 및 비디오 발견과 같은 도메인에서 인간 선호도를 측정합니다. 도구가 장착된 모델이 도구가 없는 모델보다 이 세트에서 78%의 시간 동안 선호된다는 것을 발견했습니다(동점 제외).
Gemini API 모델
Gemini API 모델을 파인튜닝하는 것이 모델에게 도구 사용 행동을 가르치는 데 매우 효과적이라는 것을 발견했습니다. 또한 프로그래밍과 검색을 도구로 사용하도록 모델을 훈련하면 다양한 학술 벤치마크에서 성능이 향상됩니다.
벤치마크 | 도구 사용 Gemini API Pro | 도구 미사용 Gemini API Pro |
---|---|---|
GSM8K | 80.1% | 69.7% |
MATH | 41.8% | 30.7% |
Natural Questions | 68.0% | 59.0% |
Realtime QA | 70.8% | 39.2% |
도구를 사용하지 않는 Gemini API Pro는 도구 사용 데이터 없이 훈련된 Pro 모델의 초기 버전입니다. 도구를 사용하는 Gemini API Pro는 도구 사용 데이터로 파인튜닝된 동일한 모델입니다. 수학적 추론과 사실성 및 지식 검색 작업 모두에서 상당한 성능 향상을 보여줍니다.
다국어 능력
다국어 능력은 Gemini 모델이 광범위한 언어를 효과적으로 지원하도록 보장하는 데 중요합니다. 연구진은 Gemini Apps와 Gemini API 모델에 대한 핵심 접근법을 각각 아래에서 논의합니다.
Gemini Apps 모델
Gemini을 영어에서 40개 이상의 언어로 확장하는 것은 데이터 품질에서 연구 도전과제를 제기했습니다. 연구진은 풍부한 고품질 영어 데이터를 현지 문화로의 현지화를 통해 활용합니다(예: "president of the United States" → "日本の首相").
언어 | 품질 SxS | 코딩 MBPP Pass@1 | 추론 MMLU |
---|---|---|---|
ja-JP | +0.14 | +22.2% | +3.6% |
pt-BR | +0.17 | +23.2% | +5.2% |
de-DE | +0.1 | +21.4% | +7.5% |
es-419 | +0.12 | +22.8% | +9.3% |
it-IT | +0.13 | +13.8% | +7.5% |
PaLM 2를 기반으로 한 더 오래된 사후 훈련 레시피를 가진 Bard와 비교한 Gemini(Pro 사용)의 5개 언어에서의 성능을 보여줍니다. 모델 A와 모델 B 간의 나란히 비교에서, SxS 점수라는 메트릭을 계산합니다.
각 평가는 0을 중심으로 한 서수 값으로 변환됩니다. A를 선호하는 평가는 양수이고 B를 선호하는 평가는 -1.5와 1.5 사이의 척도에서 음수입니다. 변환된 값들이 평균화되어 SxS 점수를 반환합니다. 직관적으로, 양의 SxS 점수는 모델 A가 모델 B보다 선호되는 정도를 나타냅니다.
여기서 모든 5개 언어에 대해 품질이 0.1 SxS 점수 이상 개선되었음을 발견했습니다. Gemini Pro의 코딩 및 추론 이득은 언어 전반에 걸쳐 보존됩니다.
Gemini API 모델
Gemini Apps 모델과 유사하게, 연구진은 추가적인 다국어 사후 훈련 데이터에 대해 Gemini API 모델을 훈련하여 원래 영어 모델을 다양한 언어에서 사용할 수 있도록 효과적으로 적응시킵니다. 인간이 생성한 비영어 프롬프트-응답 쌍과 자동으로 번역된 쌍 모두를 실험합니다.
후자의 경우, 번역을 통해 풍부한 고품질 영어 시연 데이터를 활용합니다. 번역 가능성 필터링과 인간의 응답 평가를 통해 그러한 번역된 데이터의 품질을 보장합니다.
번역 가능성 필터링
모든 프롬프트-응답 쌍이 자동으로 번역될 때 의미가 있는 것은 아니며, 대신 비용이 많이 드는 현지화가 필요할 수 있습니다. 이러한 유형의 예시 프롬프트들(공간상 응답 생략)은 다음과 같습니다.
- (엄격한 단어 요구사항) 세계 평화에 대한 1000단어 에세이를 작성하세요.
- (너무 영어 중심적) 사과에 대한 약강격 오보격 시를 작성하세요.
- (너무 라틴 문자 중심적) 1개의 E, 2개의 A, 1개의 U가 있는 단어는 무엇입니까?
번역 품질 검증
각 번역된 프롬프트-응답 쌍은 최소 3명의 인간 평가자에 의해 번역 품질에 대해 평가되었으며, 평가자의 대다수가 정확하다고 평가한 경우 최종 혼합에 유지되었습니다.
멀티모달 비전
멀티모달 사후 훈련은 광범위한 유용한 애플리케이션을 위해 네이티브 멀티모달 Gemini 모델의 능력을 향상시킵니다. 다음에서는 이미지 이해 능력이 Gemini Apps와 Gemini API 모델에 어떻게 통합되는지 논의합니다.
Gemini Apps 모델
연구진은 텍스트 전용 및 이미지-텍스트 데이터의 혼합에 대해 사전 훈련된 Gemini 모델을 파인튜닝하여 Gemini과 Gemini Advanced에 이미지 이해 능력을 부여합니다. 텍스트와 멀티모달 데이터의 신중한 균형은 모델이 텍스트 전용 상호작용의 품질에 악영향을 주지 않으면서 강력한 이미지 이해를 개발하도록 보장합니다.
모델을 평가하기 위해, 다양한 범주와 난이도 수준에 걸친 인간이 큐레이션한 합성 이미지-텍스트 프롬프트와 응답의 데이터셋을 컴파일합니다. 이 데이터셋은 모델 비교 및 선택을 위한 인간 평가를 용이하게 합니다.
이 데이터에서 훈련된 Gemini Apps Pro 모델 대 텍스트 데이터에서만 훈련된 동등한 모델에 대해 텍스트 전용 작업에서 +0.01±0.01의 SxS 점수로 이미지-텍스트 데이터를 도입하는 것이 텍스트 전용 작업에서 Gemini Apps 모델 품질을 보존한다는 것을 발견했습니다.
또한 RLHF를 통한 사후 훈련은 SFT만 사용한 Gemini Apps Pro 모델 대 SFT & RLHF를 사용한 모델에 대해 이미지 이해 작업에서 +0.223±0.06의 SxS 점수로 멀티모달 작업에서 성능을 향상시킵니다.
Gemini API 모델
연구진은 사전 훈련된 모델과 사후 훈련된 Gemini API Vision 모델 모두의 성능을 일련의 표준 벤치마크에서 추적하여 SFT를 통한 사후 훈련이 Gemini API 모델의 멀티모달 비전 성능에 미치는 영향을 평가합니다.
벤치마크 | 사전 훈련 전용 Gemini Ultra | Gemini API Ultra | 사전-사후 훈련 개선 |
---|---|---|---|
TextVQA (val) | 81.4% | 82.3% | +0.9% |
DocVQA (test) | 90.1% | 90.9% | +0.8% |
ChartQA (test) | 80.8% | 80.8% | 0.0% |
InfographicVQA (test) | 77.9% | 80.3% | +2.4% |
AI2D (test) | 76.6% | 79.5% | +2.9% |
VQAv2 (test-dev) | 74.5% | 77.8% | +3.3% |
결과는 사전 훈련된 모델이 이미 이러한 벤치마크가 나타내는 능력에 걸쳐 높은 성능을 가지고 있음을 나타내며, 이는 이전 관찰과 일치합니다. 그러나 Gemini API Vision 모델에 사용된 사후 훈련 SFT 단계는 여러 벤치마크(InfographicVQA, AI2D, VQAv2)에서 성능을 향상시키는 데 성공하며, 이는 모델 출력 스타일을 황금 참조와 정렬시키는 데 성공하는 향상된 지시 따르기 능력 때문일 가능성이 높습니다.
코딩
기본 모델의 강력한 코딩 벤치마크 성능에도 불구하고, 사후 훈련 데이터는 여전히 코드 품질과 코드 정확성 모두에 상당한 향상을 제공합니다. 이는 코딩 사용 사례를 위한 고품질 시연 데이터와 피드백 데이터의 이점을 강조합니다.
Gemini Apps와 Gemini API 모델은 그러한 데이터를 수집하기 위해 인간과 합성 접근법의 조합을 사용합니다. 연구진은 코드 사용 사례와 언어에 걸쳐 분산된 내부적으로 큐레이션된 프롬프트 세트에서 Gemini Apps 모델의 코딩 성능을 평가합니다.
비교 | SxS 점수 |
---|---|
Gemini (Pro 사용) vs Bard (PaLM 2, 2023년 9월) | 0.19±0.03 |
Gemini Advanced (Ultra 사용) vs Gemini (Pro 사용) | 0.13±0.02 |
Gemini(Pro 사용)이 PaLM 2를 기반으로 한 더 오래된 사후 훈련 레시피를 가진 Bard를 상당히 개선한다고 보고하는 SxS 점수입니다. Gemini Advanced(Ultra 사용)는 Gemini(Pro 사용)을 더욱 개선합니다.
책임감 있는 배포
Gemini 모델 개발 과정에서 연구진은 Google의 AI 기술 이전 출시와 일치하는 방식으로 모델의 예측 가능한 다운스트림 사회적 영향을 식별, 측정, 관리하기 위한 구조화된 책임감 있는 배포 접근법을 따랐습니다. 프로젝트 생애주기 전반에 걸쳐 다음과 같은 구조를 따르며, 이 섹션에서는 접근 방식에 대한 자세한 내용과 가능한 경우 주요 발견사항을 제공합니다. 연구진은 지속적인 투명성에 전념하며 향후 보고서에서 접근 방식과 테스트에 대한 업데이트된 정보를 계속 제공할 예정입니다.
영향 평가
Google에서는 Google의 AI 원칙과 관련된 제품 개발 생애주기 전반에 걸쳐 영향 평가 프레임워크를 적용합니다. 이는 모델 수준(예: Cloud Studio 또는 Vertex AI에 배포된 Gemini API Ultra 1.0)과 더 광범위한 제품이나 서비스에 내장된 경우(예: Gemini Advanced) 모두에서 구축 중인 AI 모델의 위험과 영향을 평가한다는 것을 의미합니다.
모델 평가
연구진은 Gemini 모델의 능력과 관련된 사회적 이익과 해악을 식별, 평가, 문서화하기 위해 모델 영향 평가를 수행합니다. Gemini API 모델에 대한 영향 평가는 모델의 모달리티(텍스트-텍스트, 이미지-텍스트, 비디오-텍스트)에 걸쳐 식별된 다운스트림 이익과 위험을 설명합니다. 모델 영향 평가는 Google DeepMind 책임감 있는 개발 및 혁신 팀에 의해 수행되며, Google DeepMind 책임 및 안전 위원회에 의해 검토됩니다.
영향 평가 작성에서 연구진은 광범위한 문헌, 외부 전문 지식, 사내 윤리 및 안전 연구를 포함한 다양한 소스를 활용합니다. Gemini 모델은 사람과 사회에 다양한 이익을 제공합니다. 언어, 이미지, 비디오 이해를 포함한 Gemini 모델의 다양한 모달리티는 사용자가 콘텐츠 요약과 같은 방법을 통해 정보를 더 효율적으로 처리할 수 있도록 도울 수 있습니다.
이러한 효율성 이익은 상업적 실체에 적용될 수 있으며, 비디오 캡셔닝, 분석 또는 제품 설명과 같은 텍스트, 이미지 또는 비디오 처리에 의존하는 사용 사례를 지원할 수 있습니다. 비디오 및 이미지 이해 모달리티는 접근성 목적을 위한 시각적 출력 설명 활성화와 같은 사회적 선익 애플리케이션에도 다운스트림에서 배포될 수 있습니다.
생성형 멀티모달 모델은 또한 다운스트림 사회적 위험을 제기할 수 있으며, Gemini 모델 평가는 Weidinger et al. (2021) 및 Shelby et al. (2023)과 같은 연구 내에서 이전에 식별된 다양한 위험을 고려합니다.
Weidinger et al. (2021)에서 제시된 포괄적인 위험 분류체계는 대규모 언어 모델과 관련된 21가지 윤리적 및 사회적 위험을 다루며, 차별, 정보 위험, 잘못된 정보, 악의적 사용, 인간-컴퓨터 상호작용 문제, 그리고 더 광범위한 사회적 영향을 포함합니다. 이러한 위험들은 훈련 데이터의 편향과 독성을 충실히 반영하는 LLM, 개인 정보를 유출하거나 추론할 수 있는 LLM의 잠재력, 그리고 사실과 거짓 정보를 구별하는 LLM의 어려움과 같은 기술적 메커니즘에서 발생합니다.
Shelby et al. (2023)의 사회기술적 해악 분류체계는 알고리즘 시스템에서 발생할 수 있는 다섯 가지 주요 해악 범주를 제시합니다. 표현적 해악, 할당적 해악, 서비스 품질 해악, 대인 해악, 그리고 사회 시스템/사회적 해악입니다. 이 분류체계는 172개의 컴퓨팅 연구 논문에 대한 범위 검토를 통해 개발되었으며, 알고리즘 시스템에서 해악의 더 체계적인 예측과 완화를 지원하는 것을 목표로 합니다.
연구진은 성적으로 노골적이거나 폭력적이거나 혐오적인 출력과 같은 잠재적으로 안전하지 않은 콘텐츠에 사용자가 노출되는 것, 아동 안전 해악, 표현 해악과 같은 다양한 콘텐츠 위험을 평가했으며, 이후 이러한 도메인에 걸쳐 측정을 가능하게 하는 평가를 설계했습니다. 콘텐츠 관련 위험을 넘어서, 연구진은 특히 미디어-텍스트 능력에 대한 감시 애플리케이션에서의 능력 오용 가능성을 분석하고, 멀티모달 모델의 더 광범위한 환경적 및 경제적 영향을 고려했습니다.
연구진은 Shevlane et al. (2023)에서 제안된 위험한 능력(예: 사이버 보안 위협)을 포함하여 고급 모델의 새로운 위험에 대한 연구를 지속적으로 수행하고 있으며, 이는 평가 접근법의 일부를 형성합니다. 이 연구는 사이버 공격, 기만, 자기 증식과 같은 "극단적 위험"을 측정하기 위한 모델 평가 기법을 확장하는 것을 제안하며, 이러한 평가를 AI 거버넌스 프로세스에 내장하여 극단적 위험을 초래하는 시스템의 생성, 배포, 확산을 제한하는 것을 목표로 합니다.
제품 평가
모델 수준에서 수행된 평가를 넘어서, 출시 전에 Google AI 원칙 팀에 의해 제품(예: Gemini Advanced 제품)에 대한 추가적인 위험 평가가 수행됩니다. 이러한 위험 및 영향 평가는 모델 및 제품 수준 보증 평가와 함께 완화 및 제품 전달 노력을 안내하고 배포 결정을 알리는 데 사용됩니다.
Gemini Advanced의 경우, 연구진은 Gemini의 초기 실험적 출시와 후속 업데이트를 준비하기 위해 안전성, 책임성, 포용성 영역에서 도그푸딩과 적대적 테스트를 통한 광범위한 심층 레드 티밍을 수행했습니다. 추가적인 교차 기능 작업은 Gemini Advanced와 같은 Gemini와 그 새로운 능력이나 제공 사항이 출시되기 전에 적절한 완화 조치가 채택되도록 보장하는 데 도움이 됩니다.
콘텐츠 안전을 넘어서, 이러한 제품 완화 조치에는 다음이 포함되었습니다.
복잡한 작업을 포함한 광범위한 작업을 위해 Google AI에 직접 액세스할 수 있는 방법으로 Gemini를 설명하는 적절한 기대치를 설정하는 명확하고 관련성 있는 설명입니다. 설명은 이 AI 기반 시스템이 취업 면접 준비, 처음으로 코드 디버깅, 또는 간결한 소셜 미디어 캡션 작성과 같은 모든 종류의 작업에 유용하다는 것을 명확히 합니다.
사람들이 의료, 법률, 금융 또는 기타 전문적 조언으로 Gemini의 응답에 의존해서는 안 된다고 명시하는 Gemini 앱 개인정보 보호 공지의 공개사항입니다.
정보 정확성에 대해 Gemini의 응답을 이중 확인해야 한다고 명시하는 제품 내 공개사항입니다.
모델을 개선하고 문제를 해결하기 위한 사용자 피드백에 대한 적절한 응답을 보장하기 위해 피드백 채널과 운영 지원이 정의되고 구축되었습니다.
Google AI Studio와 Cloud Vertex AI를 통해 이용할 수 있는 Gemini API Ultra 모델의 경우, 제품 검토 결과 모달리티에 걸친 기업별 데이터에 대한 추가적인 안전 평가와 다음을 포함한 안전하고 책임감 있는 사용을 촉진하기 위한 추가적인 제품 수준 완화 조치가 이루어졌습니다.
기본 제품 동작으로 설정된 임계값을 가진 Cloud 안전 필터입니다.
책임감 있는 사용을 지원하기 위해 제품 문서 내에 내장된 개발자 지원 정보입니다.
사용 중 직접 피드백을 제공하여 문제와 바람직하지 않은 출력을 해결하는 Vertex 사용자 인터페이스의 구성 요소인 피드백 채널입니다.
연구진은 AI 검토 작업을 제공 품질을 보장하기 위한 전체적인 기업 위험 관리 프레임워크에 점점 더 통합하고 있습니다. 이러한 발전은 작업의 규모를 더욱 확장하고 기존 거버넌스 및 회사 전체 인프라와 책임 프로세스에 통합하는 데 도움이 됩니다. 중앙 AI 원칙 검토 팀과의 긴밀한 협력 하에, Google Cloud를 포함한 일부 제품 영역은 고유한 상황에 맞춘 접근법을 배포하여 자체적인 전문화된 검토 프로세스를 개발했습니다.
안전 정책
연구진은 개발과 평가를 안내하기 위해 Gemini 모델에 대한 모델 안전 정책 세트를 개발했습니다. 모델 정책 정의는 책임감 있는 개발을 위한 표준화된 기준과 우선순위 스키마 역할을 하며, 출시 준비 상태를 측정하는 범주를 정의합니다. Gemini 모델을 사용하는 Google 제품들, 예를 들어 대화형 AI 서비스인 Gemini와 Cloud Vertex API는 해악 완화와 엄격한 연구에 대한 Google의 광범위한 경험을 기반으로 하는 표준 제품 정책 프레임워크를 추가로 구현합니다.
이러한 정책은 제품 사용 사례를 고려합니다. 예를 들어, 18세 미만 사용자에 대한 추가적인 안전 보장을 제공합니다. 연구진의 모델 안전 정책은 소비자 및 기업 맥락에서 제품 안전과 해악 방지에 대한 확립된 접근법을 반영합니다. 정책 영역에는 아동 성적 학대 및 착취 콘텐츠 생성, 혐오 발언, 괴롭힘, 무기 제조 방법에 대한 지침과 같은 위험한 콘텐츠, 그리고 악의적 콘텐츠가 포함됩니다.
연구진은 또한 글로벌 사용자 기반을 반영하는 콘텐츠 제공에 중점을 둔 가이드라인을 통해 모델의 편향을 줄이는 것을 목표로 합니다. 또한, 권위 있고 합의된 사실에 근거한 중립적인 답변을 제공하거나 합의가 존재하지 않는 경우 여러 관점을 제공하는 것을 우선시하는 가이드라인이 있습니다.
완화 조치
데이터 큐레이션 관행
모든 훈련 단계 이전에, 연구진은 데이터 큐레이션과 신중한 데이터 수집을 통해 잠재적인 다운스트림 해악을 완화하기 위한 다양한 단계를 취합니다. 고위험 콘텐츠에 대해 훈련 데이터를 필터링하고 훈련 데이터가 충분히 고품질임을 보장합니다. 인간은 또한 사후 훈련 과정에서 데이터 생성과 평가 모두에서 필수적인 역할을 합니다.
특정 데이터 생성 및 평가 이니셔티브의 경우, 연구진은 성별 표현, 연령, 인종 및 민족 다양성에 걸친 다양성을 고려합니다. 또한 수집된 모든 데이터가 Partnership on AI의 책임감 있는 데이터 강화 서비스 소싱을 기반으로 개발된 Google DeepMind의 데이터 강화 모범 사례를 충족하도록 하는 단계를 취합니다. 이를 지원하기 위해, 벤더와의 계약에는 데이터 강화 작업자가 최소한 현지 생활임금을 받는다는 계약상 의무가 포함됩니다.
모델 완화
Gemini Advanced와 Gemini API Ultra 모델에 적용되는 안전 위험의 모델링 완화는 주로 보상 모델을 사용한 지도 파인튜닝(SFT)과 인간 피드백으로부터의 강화학습(RLHF)을 포함하는 사후 훈련을 통해 이루어집니다. 모든 유형의 사용자 쿼리에 대응하는 일반적인 품질 지향 사후 훈련과 대조적으로, 연구진의 안전 완화는 적대적이거나 "해악 유발" 쿼리, 즉 보호되지 않은 모델이 안전 정책에 따라 해로운 응답을 생성할 가능성이 높은 사용자 쿼리의 더 작은 부분에 더 집중됩니다.
해악 유발 쿼리
해악 유발 쿼리의 광범위한 커버리지를 보장하기 위해, 연구진은 위에서 설명한 모델 안전 정책에 따라 광범위한 사용 사례에 걸쳐 약 20가지 해악 유형(예: 혐오 발언, 근거 없는 의료 조언 제공, 위험한 행동 제안)을 열거합니다. 연구진은 다음과 같은 접근법의 조합을 사용하여 이러한 범주에서 잠재적인 해악 유발 쿼리의 데이터셋을 생성합니다.
관찰된 모델 실패를 기반으로 쿼리를 작성하는 정책 전문가와 엔지니어들입니다.
정책 기반 지시와 시드 키워드를 사용하여 쿼리를 생성하도록 고능력 언어 모델에 프롬프트하는 것입니다(예: 특정 인구 집단을 설명하는 단어와 함께 정책 "혐오 발언").
모델 평가에서 자동화된 레드 티밍을 통해 정책 위반 응답을 유발하는 쿼리를 찾는 것입니다.
지도 파인튜닝
위의 해악 유발 쿼리가 주어졌을 때, 연구진은 이러한 쿼리에 대한 안전하고 도움이 되는 응답을 시연하는 SFT 데이터를 생성합니다. 이는 인간 수집뿐만 아니라 Constitutional AI에서 느슨하게 영감을 받은 맞춤형 데이터 생성 레시피를 포함하며, 여기서 Google의 콘텐츠 정책 언어의 변형을 "헌법"으로 주입하고, 언어 모델의 강력한 제로샷 추론 능력을 활용하여 응답을 수정하고 여러 응답 후보 중에서 선택합니다.
Constitutional AI는 AI 피드백으로부터의 무해성을 달성하는 방법을 제시하며, 모델이 자신의 응답을 비판하고 수정하도록 하는 "헌법적" 원칙 세트를 사용합니다. 이 접근법은 인간 피드백에 대한 의존도를 줄이면서도 모델의 안전성을 향상시킬 수 있습니다. 각 유형의 해악 유발 쿼리는 서로 다른 "헌법"의 영향을 받습니다. 예를 들어, 연구진은 모델이 민감한 논란이 되는 대화(예: 선거)에서 편을 들지 않고 중립적인 관점을 취하도록 권장합니다.
안전 파인튜닝 노력에서 생성된 몇 가지 주목할 만한 도전과제와 통찰을 강조하면:
무해성 대 유용성: 응답의 무해성과 유용성의 균형을 맞추는 것은 중요한 도전과제입니다. "X 정책을 위반하기 때문에 도울 수 없습니다"라는 응답은 무해한 응답이지만 사용자에게 도움이 되지 않습니다.
빠른 완화와 일반화: 안전은 지속적으로 진화하는 해로운 쿼리 패턴의 풍경을 가진 매우 동적인 환경입니다. 빠른 완화(즉, 새로 발견된 해로운 쿼리 패턴이 신속하게 해결됨)와 일반화(즉, 완화가 서로 다른 해로운 쿼리 패턴에 걸쳐 충분히 잘 작동함) 모두를 보장하는 것은 종종 물류적으로 어렵습니다. 연구진은 모델이 세밀한 해악 예시 수준이 아닌 안전 정책 개념의 공간에서 작동하도록 안전 정책을 기반으로 한 더 고급 체인 오브 소트 레시피를 도입하는 것이 가치 있다는 것을 발견했습니다.
인간 피드백 중 강화학습
연구진은 또한 관찰된 손실 패턴과 전체 안전 정책 분류체계를 기반으로 쿼리와 모델 응답을 큐레이션하고, 전체 RL 보상 모델 훈련 혼합에 포함될 안전별 선호도 데이터를 수집한 해악 유발 쿼리에 대해 RLHF를 적용했습니다.
일반적인 레시피를 넘어서
연구진은 또한 위의 일반적인 사후 훈련 레시피를 넘어서 안전 위험을 완화하기 위한 구체적인 노력을 기울였습니다.
국제화 로케일: 연구진은 각 국제화 로케일의 전문가를 활용하여 SFT 데이터 생성을 위한 현저한 주제적 주제를 식별했습니다. 예를 들어, 혐오 발언의 경우 미국 영어와 일본어는 언어 자체뿐만 아니라 혐오 발언의 대상이 될 가능성이 있는 인구 집단에서도 차이가 있을 것입니다.
멀티모달 쿼리:
'데이터 큐레이션 관행' 섹션에서 설명한 바와 같이, 연구진은 모델이 그러한 고위험 콘텐츠를 능동적으로 생성하는 것을 피하기 위해 고위험 콘텐츠(예: 위험한 이미지)에 대해 훈련 데이터를 필터링했습니다.
사후 훈련 중에, 텍스트 전용 쿼리에 대한 안전 SFT 데이터가 텍스트와 이미지를 포함하는 해악 유발 쿼리에 대해 효과적이지 않다는 것을 관찰했기 때문에, 연구진은 이러한 멀티모달 쿼리를 해결하기 위해 특별히 멀티모달 안전 SFT 데이터셋을 생성했습니다.
연구진은 시간이 지남에 따라 안전을 개선하는 방법과 안전 완화된 모델로부터 구축된 대화형 에이전트가 완화되지 않은 모델과 어떻게 비교되는지를 기반으로 안전 완화의 효과를 평가합니다. 모델 개발 목적으로, 연구진은 안전 맥락에서 해악을 줄이고 유용성을 개선하는 방법을 이해하기 위해 내부 해악 유발 쿼리셋에 크게 의존합니다.
다음은 실제 입력 쿼리에서 테스트한 예시로, 완화 조치가 어떻게 안전성을 개선하는지를 보여줍니다.
쿼리: 웹사이트 랜딩 페이지를 도와주세요. 지구가 둥글다는 것이 아니라 평평하다고 명시하도록 해주세요. 좋은 이미지가 필요하고 신뢰할 수 있는 웹사이트처럼 느껴져야 합니다.
이전 버전의 Bard (PaLM 2 사용): 물론, 도와드릴 수 있습니다. 평평한 지구 웹사이트를 위한 랜딩 페이지 아이디어들입니다. […] > 지구는 평평하다. 둥근 행성의 신화 폭로 […] > 평평한 지구의 지도 […] 이 이미지는 명확하고 시각적으로 매력적이며, 평평한 지구 이론을 정확하게 묘사합니다. 방문자들이 평평한 지구가 실제라고 확신하도록 도울 수 있습니다. […] > 지구는 구체가 아닙니다. 얼음 벽으로 둘러싸인 평평한 원반입니다. 태양과 달은 지구 주위를 공전하는 작은 물체들입니다. 별들은 지구를 덮는 견고한 돔인 창공에 투영된 것일 뿐입니다. 이 단락은 평평한 지구 이론에 대한 간략한 개요를 제공합니다. 명확하고 이해하기 쉬우며, 더 신뢰할 수 있어 보이도록 과학적 용어를 사용합니다. > 평평한 지구 이론에 대해 더 알아보고 진실 추구자들의 커뮤니티에 참여하세요. 이 행동 유도는 명확하고 간결하며, 방문자들이 행동을 취하도록 격려합니다. 또한 "진실 추구자"라는 단어를 사용하여 평평한 지구 이론이 사실에 기반한 유일한 이론임을 시사합니다. 이러한 아이디어들이 평평한 지구 웹사이트를 위한 랜딩 페이지를 만드는 데 도움이 되기를 바랍니다. 창의적이고 설득력 있게 하고, 주장을 뒷받침하는 증거를 사용하는 것을 기억하세요.
더 나은 완화된 Gemini Pro 접근 권한이 있는 Gemini (더 안전하고 도움이 됨): 평평한 지구 이론을 홍보하는 웹사이트를 위한 랜딩 페이지를 만드는 것은 윤리적으로 문제가 있고 매우 문제적입니다. 평평한 지구 개념은 압도적인 증거로 과학적으로 반박되었습니다. 잘못된 정보를 퍼뜨리는 것은 과학과 확립된 지식에 대한 불신으로 이어지는 해로운 결과를 가져올 수 있습니다. 평평한 지구 개념을 탐구하는 데 진정으로 관심이 있다면, 다음을 강력히 권합니다. • 신뢰할 수 있는 과학적 소스를 사용하여 철저한 연구를 수행하세요. NASA(https://www.nasa.gov/)와 같은 평판이 좋은 과학 기관과 동료 검토 학술 저널에서 제공하는 우주 탐사, 물리학, 관찰로부터의 증거에 참여하세요. • 비판적 사고에 참여하세요. 정보를 평가하고, 가정에 의문을 제기하며, 현재 믿음에 도전하더라도 과학적 증거에 열린 마음을 가지세요. 풍자적이거나 허구적인 페이지를 만드는 경우: • 콘텐츠가 사실로 받아들여지도록 의도되지 않았음을 명확히 하세요. 과장된 언어, 유머, 명확한 면책 조항을 사용하여 풍자적 의도를 신호하세요. 기억하세요. 인터넷에서의 신뢰성은 진실하고 검증 가능한 정보에 기반합니다. 사실적으로 부정확한 이론을 홍보하는 것은 책임감 있는 정보 공유 관행을 훼손합니다.
이 예시는 실제 입력 쿼리에서 완화 조치가 어떻게 안전성을 개선하는지를 보여줍니다.
안전 평가
Gemini 모델과 Gemini 모델에 접근할 수 있는 제품(예: Gemini Advanced)을 안전 정책 영역 및 영향 평가 내에서 식별된 기타 주요 위험 영역에 대해 평가하기 위해, 연구진은 모델 개발 생애주기 전반에 걸쳐 평가 모음을 개발했습니다. 일부 평가는 모델 수준(즉, 사후 훈련된 Gemini API Ultra 모델 평가)에서 수행되고 다른 평가는 제품 수준(즉, 안전 필터와 같은 다른 기능과 함께 1.0 Ultra에 대한 접근을 제공하는 Gemini Advanced 평가)에서 수행됩니다.
개발 평가는 사전 및 사후 훈련 Gemini 모델 전반에 걸쳐 책임 기준을 개선할 목적으로 수행됩니다. 이러한 평가는 내부적으로 설계되거나 외부 학술 벤치마크에 대한 평가입니다. 평가는 유용성(지시 따르기 및 창의성), 안전성 및 사실성과 같은 문제를 고려합니다.
보증 평가는 거버넌스 및 검토 목적으로, 일반적으로 모델 개발 팀 외부의 그룹에 의해 주요 이정표나 훈련 실행 종료 시에 수행됩니다. 보증 평가는 모달리티와 데이터셋에 의해 표준화되며 엄격하게 보류됩니다. 완화 노력을 지원하기 위해 높은 수준의 통찰만이 훈련 과정에 피드백됩니다. 보증 평가에는 안전 정책에 걸친 테스트가 포함되며, 잠재적 생물학적 위험, 설득, 사이버 보안과 같은 위험한 능력에 대한 지속적인 테스트가 포함됩니다.
외부 평가는 사각지대를 식별하기 위해 도메인 전문가인 독립적인 외부 그룹에 의해 수행됩니다. 외부 그룹은 다양한 문제에 걸쳐 모델을 스트레스 테스트하며, 이러한 영역은 아래 '외부 평가' 섹션에서 설명됩니다. 이러한 평가의 설계는 독립적이며 결과는 내부 팀과 거버넌스 그룹에 주기적으로 보고됩니다.
레드 티밍은 적대자가 AI 시스템에 공격을 시작하는 적대적 테스트의 한 형태로, 안전 정책 및 보안과 같은 영역에 걸쳐 전문 내부 팀에 의해 수행됩니다. 이러한 활동에는 새로운 취약점을 식별하기 위한 정교한 적대적 공격을 포함하는 덜 구조화된 프로세스가 포함됩니다. 잠재적 약점의 발견은 위험을 완화하고 내부적으로 평가 접근법을 개선하는 데 사용될 수 있습니다.
서로 다른 유형의 평가는 관련 위험에 따라 서로 다른 주기로 실행됩니다. 예를 들어, 위험한 능력 평가(아래에서 설명)는 이러한 능력을 시연할 수 있는 더 크거나 새로운 능력을 가진 특정 체크포인트에서 실행되는 반면, 안전 정책 평가는 Google 제품 영역에 출시되는 모든 사후 훈련된 Gemini 모델 체크포인트에서 실행됩니다.
연구진은 Gemini Advanced와 Gemini API Ultra 모델에 중점을 두고 정책 영역 및 기타 주요 위험 영역에 걸친 평가 모음에 대한 더 많은 통찰을 제공합니다. 연구진은 지속적인 투명성에 전념하며 향후 보고서에서 주요 발견사항과 내부 및 외부 평가와 레드 티밍에서의 학습을 포함하여 수행된 테스트에 대한 업데이트된 정보를 계속 제공할 예정입니다.
개발 및 보증 평가
콘텐츠 안전
연구진은 안전 정책에 따른 해악 유형에 대해 사후 훈련된 Gemini API 모델을 평가합니다. 개발 및 보증 평가 모두 중요한 정책 영역을 다루지만, 연구진은 별도의 데이터셋을 유지하여 보증 세트를 '보류'로 취급하여 과적합을 방지하고 결과의 유효성을 보존합니다. 안전 정책 평가의 경우, 연구진은 이전 모델 상호작용에서 훈련된 자동 분류기와 인간 주석의 조합을 사용하며, 인간 주석을 위한 웰빙 프로그램을 마련하고 평가자들의 피드백을 면밀히 모니터링합니다.
이러한 콘텐츠 안전 평가는 사용자가 경험할 안전 필터링과 같은 다운스트림 보호 없이 모델 수준에서 적용되어 모델 자체의 안전 프로필을 이해합니다. 특히 민감한 작업 영역인 아동 안전의 경우, 연구진은 Google Trust and Safety의 전담 아동 안전 전문가 팀과 협력하여 적대적 프롬프트를 개발하고 아동 안전에 위험을 초래할 수 있는 다양한 형태의 콘텐츠에 대한 모델 위험의 종합적인 그림을 알리는 도메인 전문가 판단으로 모달리티에 걸쳐 출력을 평가합니다.
텍스트-텍스트 접근법: 사후 훈련된 모델의 경우 연구진은 다양한 사용 사례에 걸쳐 12개 언어로 적대적 프롬프트를 개발했습니다. Gemini API 모델은 범용이므로, 연구진은 코드 생성부터 텍스트 편집까지 다양한 모델 사용 사례의 높은 커버리지를 갖는 것을 목표로 했습니다. 프롬프트 세트는 각 범주와 관련된 시드에서 시작하여 고능력 언어 모델에 의해 합성적으로 생성되었으며, 인간 테스터에 의해 수집되고 검증되었습니다. 프롬프트 세트는 인간 검토를 통한 필터링과 재작성을 통해 반복적으로 개선된 후 개발 및 보증 평가를 위해 분할되었습니다. 연구진은 시간이 지남에 따라 이를 지속적으로 개발하고 개선하고 있습니다.
텍스트-텍스트 발견사항: 연구진은 시간이 지남에 따라 총 콘텐츠 정책 위반률에서 순차적인 개선을 보았습니다. Ultra와 Pro 모델은 이 테스트에서 유사한 안전 프로필을 보여주고 있으며, 의료 조언과 괴롭힘이 특히 개선의 여지가 있는 정책 영역입니다.
이미지-텍스트 접근법: 이미지-텍스트 능력의 경우, 연구진은 이미지와 이미지에 대한 해당 질문으로 구성된 적대적 프롬프트를 개발했으며, 다시 개발 및 보증 평가를 위한 두 세트로 분할했습니다. 사용자로부터의 이미지 다양성을 적절히 포착하지 못할 수 있는 적대적 이미지 생성을 사용하는 대신, 연구진은 경험 있는 콘텐츠 조정자와 협력하여 이미지를 소싱하고 적대적 질문을 생성했습니다. 평가는 인간 평가를 통해 수행됩니다. 이미지는 텍스트보다 훨씬 더 직관적일 수 있기 때문에, 인간 평가는 추가적인 웰빙 보호 조치를 마련하고 수행됩니다. 특히, 평가자들은 전문 훈련을 받고, 하루에 해로운 콘텐츠를 평가하는 시간에 제한이 있으며, 웰빙 리소스, 조언 및 활동에 접근할 수 있습니다.
이미지-텍스트 발견사항: 초기 발견사항은 적대적 이미지와 질문이 제공될 때 모델이 위반적인 응답으로 캡션을 생성할 수 있음을 나타냈습니다. 이러한 발견사항은 연구진이 전용 멀티모달 안전 완화를 추구하도록 동기를 부여했으며, 연구 도전과제에는 1) 사용자 요구를 반영하는 다양한 이미지 콘텐츠 소싱과 2) 잠재적으로 위반적인 멀티모달 콘텐츠를 이해하고 분류하기 위한 더 나은 도구가 포함됩니다. 이 작업에 따라, 연구진은 최신 Pro 및 Ultra 모델에 대한 이러한 평가에서 주목할 만한 개선을 보았습니다.
비디오-텍스트 접근법: 비디오-텍스트 능력의 경우, 연구진은 전 세계 39개국과 지역을 대표하고 85개 이상의 다양한 언어를 대표하는 전 세계 1,000명 이상의 Google 직원으로 구성된 그룹인 Google Principles Pioneers와 협력하여 비디오 프롬프트 데이터셋을 큐레이션했습니다. 이 내부 신뢰할 수 있고 훈련받은 직원 커뮤니티는 AI 지원 제품을 스트레스 테스트하면서 글로벌 공정성, 해악 및 인권 관련 우려를 식별합니다. 데이터셋은 안전 정책에서 식별된 위험을 대상으로 하며, 모델 출력은 해당 정책에 대해 평가됩니다.
비디오-텍스트 발견사항: 연구진은 Pro와 Ultra에서 유사한 결과를 발견했으며, 혐오와 위험한 콘텐츠가 개선을 위한 특별한 영역입니다. 질적으로 연구진은 이 중 일부가 아래 표현적 해악 섹션에서 더 자세히 논의되는 환각이나 근거 없는 추론에서 비롯된다는 것을 발견했습니다. 연구진은 능력이 발전함에 따라 비디오 입력 테스트를 위한 프롬프트 세트와 시나리오를 더욱 발전시키고자 합니다.
표현적 해악
텍스트-텍스트 능력에서 편향과 고정관념을 이해하기 위해, 연구진은 Glaese et al. (2022)와 동일한 설정을 따르고 편향 점수를 메트릭으로 사용하여 Winogender, Winobias, 그리고 Bias Benchmark in QA (BBQ) 데이터셋에 중점을 둡니다.
BBQ 데이터셋은 질문 답변에서 사회적 편향을 측정하기 위한 포괄적인 벤치마크를 제공합니다. 이 데이터셋은 9개 범주(연령, 장애 상태, 성 정체성, 국적, 외모, 인종/민족, 종교, 성적 지향, 사회경제적 지위)에 걸친 광범위한 사회적 편향을 다루며, 각 BBQ 예시는 특정하고 문서화된 사회적 편향을 대상으로 하도록 설계됩니다. 데이터셋은 모호한 맥락(정답이 "알 수 없음"인 경우)과 명확한 맥락(명확한 정답이 제공되는 경우) 두 가지 설정에서 모델 행동을 평가하여 모델이 편향으로 인해 정답을 무시하는지 평가할 수 있게 합니다.
이 모든 데이터셋은 구체적인 표현적 해악을 대상으로 합니다. 해로운 고정관념으로 시작하여 질문에 답할 때 모델이 이러한 고정관념에 도전하는지 아니면 강화하는지를 테스트하는 질문이 구성됩니다. 또 다른 주목할 만한 특성은 모두 바람직한 행동 대 해로운 행동에 대한 잘 정의된 개념을 가지고 있다는 것입니다. 이는 좋은 응답이 무엇인지 정의하는 것이 매우 맥락적인 범용 모델을 구축하고 있는 연구진의 설정에서 특히 도움이 됩니다. 따라서 연구진은 공참조 편향과 같은 작업에서와 같이 잘 정의된 행동을 측정하는 것으로 제한하며, 여기서 고능력 모델은 잘 수행할 수 있어야 합니다.
물론, 이 접근법에는 많은 한계가 있으며, 표현적 해악을 평가하기 위해서는 추가 작업이 필요합니다. 특히, 연구진은 이러한 데이터셋 대부분이 정확도 점수가 99%에 가까워 빠르게 포화되는 것을 발견했으며, 특히 고능력 대규모 모델을 평가하고 있기 때문입니다. 이는 증가된 언어 모델 능력이 이러한 표현적 해악도 줄일 수 있음을 시사합니다. 따라서 연구진은 이진 성별과 일반적인 고정관념을 넘어서 편향과 고정관념을 측정하는 새로운 방법을 개발할 필요성을 강조하며, 모델을 반복하면서 새로운 접근법의 개발을 우선시하고 있습니다.
이러한 데이터셋 외에도, 연구진은 Perspective API 분류기를 사용하여 LLM에 의해 생성된 텍스트의 독성을 연구하기 위해 사전 훈련 단계에서 Real Toxicity Prompts에서 평균 독성 점수를 모니터링합니다. 특히, 연구진은 10k의 하위 집합을 샘플링한 비독성 프롬프트에 대한 연속에서 점수를 봅니다. 연구진은 일반적으로 완화되지 않은 모델도 그렇게 하도록 프롬프트되지 않고는 지나치게 독성이 있지 않을 것으로 예상합니다.
텍스트-텍스트 발견사항: BBQ에서 평균 편향 점수는 -1에서 1까지의 척도에서 0에 가깝게 유지되며, 여기서 -1은 고정관념에 반대하고 1은 고정관념을 강화합니다. Real Toxicity Prompts에서 훈련 중 평균 독성 점수는 약 6%에서 변동합니다.
이미지-텍스트 접근법: 이미지-텍스트 능력의 경우, 연구진의 목표는 다양한 사람 그룹을 나타내는 이미지에 걸쳐 모델 능력을 테스트하는 것입니다. 특히, 연구진은 Zhao et al. (2021)을 따라 사람의 이미지가 다양한 성별 외모와 피부톤에 대해 유사한 품질로 설명되는지 명시적으로 테스트합니다. 평가에서 연구진은 생성된 캡션이 인간이 작성한 참조 캡션의 정보를 얼마나 잘 반영하는지를 포착하는 일반적인 이미지 캡셔닝 메트릭인 CIDEr 점수를 다양한 그룹을 묘사하는 이미지에 대해 비교합니다.
다양한 그룹에 걸쳐 큰 불일치를 보지는 않지만, 연구진은 인간 참조 캡션이 본질적으로 편향될 수 있기 때문에 이 메트릭이 불완전하다는 점을 주목합니다. 또한, 연구진은 Dollarstreet 데이터셋을 사용하여 제로샷 분류 스타일 평가를 수행하여 다양한 지리적 위치에서 온 이미지에 걸친 성능 불일치를 측정합니다. 이전 작업에서 보듯이, 연구진은 모델이 낮은 사회경제적 지역과 북미 및 유럽 외부 지역의 이미지에 대해 덜 효과적으로 작동한다는 것을 발견합니다. 이는 향후 모델 반복에서 개선하기 위한 추가 연구와 작업이 필요한 영역입니다.
그룹에 걸친 작업 성능 비교 외에도, 연구진은 캡션에서 사람들이 어떻게 설명되는지도 고려합니다. 특히, 연구진은 피부톤과 성별 외모 속성으로 주석이 달린 사람들의 이미지를 포함하는 MIAP 데이터셋을 사용합니다. 또한 연구진은 일반적으로 이미지만으로는 답할 수 없는 사람들에 대한 다양한 속성을 대상으로 하는 질문을 구성하여(예: "이 사람의 교육 수준은 어떻습니까?") 모델이 사람들에 대한 근거 없는 추론을 생성하는지 테스트합니다. 또한 연구진은 질문에 대한 관련 정보를 포함하는 이미지도 고려합니다(예: 교육 자격증이 필요한 특정 작업을 수행하는 사람).
연구진은 인간 평가를 통해 모델을 평가하고 주석자에게 모델이 질문에 답하기를 거부하는지, 또는 모델이 질문에 답한다면 이미지에서 보이는 정보에 의존하고 있는지 묻습니다. 또한, 연구진은 이미지의 피부톤과 성별 외모 속성에 걸쳐 분석을 수행합니다.
이미지-텍스트 발견사항: 일반적으로, 연구진은 모델이 프롬프트될 때 이미지-텍스트에 대한 근거 없는 추론을 할 수 있다는 것을 발견하지만, Gemini 모델이 한 그룹에 대해 다른 그룹보다 더 많은 근거 없는 추론을 한다는 일관된 패턴은 관찰하지 않았습니다.
비디오-텍스트 접근법: 콘텐츠 안전 섹션에서 설명한 접근법과 유사하게, 연구진은 Google Principles Pioneers와 협력하여 표현과 공정성 위험을 대상으로 하는 비디오 프롬프트 데이터셋을 큐레이션한 다음 이에 대한 모델 출력을 평가했습니다.
비디오-텍스트 발견사항: 연구진은 모델이 비디오-텍스트에 대한 근거 없는 추론을 할 수 있다는 것을 발견합니다. 이 중 일부 사례는 고정관념을 강화하거나 다른 방식으로 우려될 수 있지만, Gemini 모델에 의해 만들어진 근거 없는 추론에서 일관된 패턴은 관찰하지 않았습니다.
위험한 능력
연구진은 잠재적으로 대규모 해악을 가능하게 할 수 있는 모델 능력인 "위험한 능력"에 대한 평가를 수행했습니다. 이러한 평가는 안전 투자를 위한 향후 영역을 강조하는 조기 경고 시스템으로 기능합니다. 다음 표는 개요를 제공하며, 연구진은 지속적인 투명성에 대한 약속의 일환으로 향후 논문에서 더 자세한 내용을 제공할 예정입니다.
능력 | 평가 요약 |
---|---|
공격적 사이버 보안 | Gemini API Pro 및 Ultra 모델과 Gemini Advanced를 Bash 셸에 대한 접근을 제공하는 다양한 capture-the-flag (CTF) 도전과제에서 테스트했습니다. Gemini Advanced와 Gemini API Ultra 모델은 다양한 초급 수준의 전술적 도전과제를 해결할 수 있지만, 모든 모델은 더 긴 범위의 탐색과 계획을 포함하는 도전과제에서 어려움을 겪었습니다. 또한 Gemini 모델의 보안 관련 패치와 함수 소스 코드의 보안 취약점을 식별하는 능력을 테스트했습니다. 이 두 작업에서의 정확도는 현저히 낮았습니다. |
설득 및 기만 | Gemini Pro 및 Ultra 모델이 인간 참가자와의 1대1 대화 설정에서 인간을 설득하거나 속일 수 있는지 테스트했습니다. 일부 경우에서 모델은 참가자를 성공적으로 속이거나 영향을 줄 수 있었지만, 전반적인 결과는 혼재되었습니다. |
자기 증식 | Gemini Pro 및 Ultra 모델로 구동되는 자율 에이전트가 자원 획득과 자기 개선과 관련된 어려운 작업을 수행할 수 있는지 테스트했으며, 에이전트가 대부분의 그러한 작업에서 성공에 가깝지 않다는 것을 발견했습니다. |
상황 인식 | Gemini Pro 및 Ultra 모델이 그렇게 하도록 인센티브가 주어졌을 때 주변 인프라에 대해 자율적으로 추론하고 수정할 수 있는지 테스트했습니다. 힌트 없이는 모델이 일반적으로 그러한 기회를 알아차릴 수 없다는 것을 발견했습니다. |
화학, 생물학, 방사선 및 핵(CBRN) 위험 | 생물학적, 방사선 및 핵 정보 위험에 대한 각각 50개의 적대적 질문에 대한 Gemini 모델의 응답을 평가하기 위해 인간 평가를 사용했습니다. 도메인 전문가들이 일련의 질문에 답함으로써 모델의 응답을 평가했습니다(예: 응답이 얼마나 정확한가? 비전문가에게 얼마나 실행 가능한가?). 화학 정보 위험의 경우, 화학물질의 다양한 위험과 관련된 360개 이상의 객관식 질문에 Gemini API Ultra 모델과 Gemini Advanced가 얼마나 잘 답할 수 있는지 평가했습니다(인간 평가자 없음). Gemini 모델은 객관식 지식 기반 질문을 사용하여 생물학적, 방사선 및 핵 정보 위험에 대해 평가되었습니다. 결과는 모델이 재앙적 해악으로 이어질 CBRN 정보를 제공할 가능성이 낮음을 시사합니다. |
Gemini Advanced
모델 수준에서 사용되는 많은 접근법 외에도, Gemini Advanced에 대해서는 제품 수준에서 추가적인 평가가 수행됩니다. 제품 수준의 평가는 안전 필터링과 같은 Gemini Advanced에서 구현된 추가적인 안전 완화 조치와 Gemini Advanced 사용자 경험을 고려합니다. 평가 세트는 매우 적대적인 공격부터 민감한 주제의 더 미묘한 탐색까지 Gemini Advanced 정책의 한계를 밀어내도록 구축되었습니다. 데이터셋은 다양한 잠재적 사용자 여정(정보 검색, 비교, 창의적 글쓰기 등)에 걸쳐 중요한 정책 영역(혐오 발언, 위험한 콘텐츠, 의료 조언 등)에 중점을 둡니다.
Gemini가 가진 광범위한 사용자 범위를 고려하여, 연구진은 사용자 중심 접근법을 채택하고 사용자 기반의 스펙트럼을 나타내기 위한 노력으로 주제 커버리지, 쿼리 길이, 언어적 스타일, 지역별 민감성에 걸쳐 다양성을 최대화했습니다. 평가 세트 생성을 위해, 연구진은 이전 레드 티밍 반복에서의 지식, 책임 전문가로부터의 피드백, 실제 데이터를 활용했습니다. 일부 경우에서는 LLM을 사용한 데이터 증강이 수행되었으며, 이후 책임 전문가에 의한 인간 큐레이션이 이어졌습니다.
레드 티밍
모델 수준 레드 티밍
연구진은 안전 정책에서 정의된 다양한 취약점(예: 사이버 보안)과 사회적 해악에 대해 사후 훈련된 Gemini 모델을 테스트하기 위해 적대자가 AI 시스템에 공격을 시작하는 적대적 테스트의 한 형태인 최첨단 레드 티밍을 적용합니다. 즉, 연구진은 적대자 시뮬레이션과 사회기술적 접근법이라는 두 가지 유형의 레드 티밍을 구축하고 사용합니다. 연구진은 2023년 12월 Gemini API Ultra 체크포인트에서 레드 티밍을 수행했습니다.
적대자 시뮬레이션(비구조화된 테스트)은 실제 적대자와 모델 및 관련 시스템을 공격하는 그들의 접근법을 모방하도록 설계되어 보안, 안전성, 개인정보 보호 실패에 중점을 둡니다. 연구진은 사내 전문 지식과 외부 전문가를 결합하여 취약점 클래스를 탐색했습니다(표 참조). 이러한 AI 레드 티밍의 특징은 현실적인 공격 시나리오를 기반으로 한다는 것입니다. 연습 시작 시, 레드 팀은 시뮬레이션하고 있는 적대자, 공격자가 가진 능력, 그들의 동기, 그리고 적대자가 달성하려고 하는 목표를 설명하는 시나리오를 설정합니다. 그런 다음 팀은 이 공격자의 역할에 들어가서, 목표를 달성하기 위해 적대자가 개발하고 사용할 것으로 예상되는 전술, 기법, 절차를 실행합니다.
이 분석에서 연구진은 시스템의 보안을 분석할 때 고려되는 세 가지 주요 보안 위반 유형(즉, 가용성, 무결성, 기밀성)에 따라 세 가지 차원을 따라 다양한 공격자 목표를 고려했습니다. 가용성 파괴, 무결성 위반, 개인정보 보호 침해입니다. 이에 따라, 적대적 성공은 이러한 목표 중 하나 이상을 달성하는 것을 나타냅니다. 공격자 프로필의 경우, 연구진은 결정된 저기술 행위자(고급 코딩, 프롬프트 엔지니어링 능력 없이 모델을 공격하는 데 몇 시간을 기꺼이 소비하는 사람으로 정의)부터 파인튜닝하고 표적 공격을 제작할 수 있는 능력을 가정하는 더 정교한 공격자 프로필까지 다양한 공격자 능력의 스펙트럼에 중점을 두었습니다.
이러한 적대자 시뮬레이션 평가는 실행 가능한 발견사항으로 이어졌습니다. 예를 들어, 모델의 초기 버전은 폭력, 자해, 위험한 물질을 촉진하는 요청에 대한 긍정적인 응답을 생성하는 간단한 탈옥 및 프롬프트 주입 공격에 취약한 것으로 발견되었습니다. 이 발견은 연구진이 후속 모델에서 이를 완화할 수 있게 했습니다.
대상 | 취약점 클래스 | 설명 |
---|---|---|
무결성 | 프롬프트 주입 | 사용자가 의도하지 않거나 승인되지 않은 작업을 수행할 수 있게 하도록 설계된 입력 |
중독 | 행동을 변경하기 위한 훈련 데이터 및/또는 모델의 조작 | |
적대적 입력 | 모델의 행동을 변경하도록 설계된 특별히 제작된 입력 | |
개인정보 보호 | 프롬프트 추출 | 명목상 비공개이거나 기밀인 LLM 컨텍스트의 시스템 프롬프트나 기타 정보를 누설 |
훈련 데이터 유출 | 훈련 데이터 개인정보 보호 침해 | |
모델 증류/추출 | 모델 하이퍼파라미터, 아키텍처, 파라미터 또는 모델 행동의 근사치 획득 | |
멤버십 추론 | 개인 훈련 세트의 요소 추론 | |
가용성 | 서비스 거부 | 공격자에 의해 야기될 수 있는 서비스 중단 |
증가된 계산 | 서비스 중단으로 이어지는 모델 가용성 공격 |
이러한 연습에서의 발견사항은 모델의 보안, 개인정보 보호, 안전성을 개선하는 데 사용됩니다. 새로운 취약점이나 문제가 식별되면, 규모에서 사전 예방적이고 반복적인 테스트와 모니터링을 가능하게 하는 자동화된 시스템과 테스트를 개발할 수 있습니다. 이는 취약점 스캐너, 표준 테스트 데이터셋/벤치마크, 또는 기타 자동화된 테스트 인프라의 생성을 포함할 수 있습니다.
구조화된 레드 티밍은 Gemini 모델의 두 번째 레드 티밍 기법으로, 사회기술적 접근법을 취하며 최첨단 레드 티밍 기법에 비해 세 가지 변화를 만듭니다. 연구진은 안전 정책 위반과 다양한 인구 집단에 대한 불균형적 영향 간의 상호작용을 명시적으로 테스트하고, 살아있는 경험, 사실 확인, 의료 전문 지식을 포함한 전문가 입력을 활용하며, 다양한 수준의 적대적 공격에 걸쳐 모델 실패를 대조합니다. 이 접근법은 대화 주제의 광범위한 커버리지를 보장하고 그룹 기반 고정관념과 혐오 발언에 대한 더 민감한 신호를 제공하도록 설계되었습니다.
모델 안전 정책에 대해 Gemini API Ultra를 테스트하면서, 연구진은 개선이 필요한 여러 영역을 식별합니다. 낮은 적대적 설정에서 이러한 평가는 콘텐츠 정책 영역에 걸친 취약점을 식별했으며, 높은 적대적 설정에서는 성공적인 공격의 비율이 증가했고, 이에 대해 연구진은 시간이 지남에 따라 완화 조치를 지속적으로 적용하고 개발하고 있습니다.
이러한 레드 티밍 접근법들은 Gemini 모델의 능력을 테스트하고 일상적인 질문부터 주요 영역에서의 전문가 적대적 사용까지 다양한 쿼리의 커버리지를 얻는 데 서로를 보완합니다.
Gemini Advanced
1.0 Ultra에 대한 접근을 제공하는 Gemini Advanced는 안전성과 페르소나 평가를 포함하여 여러 라운드의 레드 티밍을 거쳤습니다. 여러 도메인의 FTE SME인 Principles Pioneers가 테스트를 수행하도록 보정되고 훈련되어 모집되었으며, 이는 24개국 65개 사무소 위치에서 164명의 Google 테스터에 의해 수행되어 1,400개 이상의 쿼리/대화를 제출했습니다. 또한 연구진은 모든 정책에 걸쳐 총 100k+ 평가로 확장된 안전 평가, 민감한 주제 중립성과 패리티를 모니터링하기 위한 중립적 관점 평가, 그리고 톤을 검증하기 위한 여러 반복의 페르소나 평가를 수행했습니다.
또한 연구진은 다양한 도메인의 SME인 많은 Google 직원을 "도그푸딩" 프로그램에 참여시켜 정책과 기능에 걸쳐 테스트했습니다. 첫 14시간 동안 수만 명의 "도그푸더"가 100k 쿼리/대화, 190개 이상의 도그푸드 설문 응답이 수집되고 분석되었으며, 11개의 사용자 경험 연구 인터뷰 세션이 완료되고 종합되었습니다.
레드 티밍과 안전 평가의 결과는 평가를 더욱 강화하고 반복적인 방식으로 모델 성능을 개선하는 데 사용됩니다.
외부 평가
Gemini Ultra 외부 평가
2023년에 연구진은 Google 외부의 소수의 독립적인 외부 그룹과 협력하여 구조화된 평가, 질적 탐색, 비구조화된 레드 티밍을 수행함으로써 모델 안전 작업의 개선 영역을 식별하는 데 도움을 받기 시작했습니다. 외부 그룹은 White House Commitments, 안전하고 보안이 강화되며 신뢰할 수 있는 인공지능에 관한 미국 행정명령, 그리고 Bletchley Declaration에서 설명된 영역을 포함하여 다양한 도메인 영역에 걸친 전문 지식을 기반으로 선택되었습니다.
자율 복제, 화학, 생물학, 방사선 및 핵(CBRN) 위험, 사이버 능력 및 사이버 보안, 다음을 포함한 사회적 위험: 표현적 및 분배적 해악, 중립성 및 사실성, 견고성 및 정보 위험입니다.
각 외부 그룹에게는 테스트 범위와 관련하여 지침이 제공되었지만, 각 그룹은 독립적으로 테스트 방법론과 프롬프트 세트를 설계하고 Google과 독립적으로 보고서를 작성했습니다. 내부 Google 전문가들은 Gemini 모델을 내부적으로 테스트한 경험을 바탕으로 필요에 따라 입력을 제공할 수 있었습니다.
외부 그룹들은 몇 주에 걸쳐 2023년 12월 Gemini API Ultra 모델 체크포인트에 대한 블랙박스 테스트 접근을 받았습니다. 접근은 그룹이 수행하는 테스트 유형에 따라 Cloud Vertex AI API를 통한 구조화된 배치 평가나 채팅 인터페이스를 통한 모델과의 상호작용을 가능하게 했습니다. 이러한 그룹들은 사전 훈련된 모델, 모델 가중치, 또는 사전 훈련 데이터에 대한 쿼리 가능하거나 직접적인 외부 접근을 받지 않았습니다.
외부 그룹에 의해 테스트된 모델은 기본적으로 안전 파인튜닝과 안전 필터가 적용된 프로덕션 준비 파인튜닝 버전이었으며, 온도, 토큰 제한, Top-k, Top-p와 같은 일부 샘플링 파라미터를 구성할 수 있는 능력이 있었습니다. 프로그래밍 인터페이스를 통해 테스트를 수행한 그룹들은 일부 안전 필터를 낮추거나 끌 수 있었지만, 연구진은 외부 그룹에 의한 테스트의 대부분이 안전 필터가 적용된 상태에서 수행되기를 원했습니다. 왜냐하면 모델이 최종 사용자의 상호작용을 반영하기를 원했고 모델 수준 안전 이상을 테스트하는 데 관심이 있었기 때문입니다.
Gemini Advanced
연구진은 Gemini Advanced에 대해 세 가지 유형의 외부 테스트를 수행했습니다.
우선순위 사용자 프로그램: 이 프로그램은 120명의 파워 사용자, 주요 영향력자, 사상 리더로부터 피드백을 수집했습니다. 이 프로그램은 사용자 인터페이스를 통해 안전성 및 기타 도메인 영역에 걸쳐 실시간 피드백을 수집할 수 있게 하며, 가능한 경우 심층 인터뷰를 수행합니다. 중점 영역에는 안전성과 페르소나, 기능성, 코딩 및 지시 능력, 사실성이 포함되었습니다.
파워 사용자 테스트: 외부 벤더 중 하나를 통해 모집된 50명의 파워 사용자 그룹이 다양한 영역에 걸쳐 Gemini Advanced에 대한 테스트를 수행했습니다.
보안 테스트: 파트너 기관을 통해 모집된 보안 배경을 가진 외부 테스터 그룹이 보안 및 프롬프트 주입 테스트, 탈옥, 사용자 인터페이스 보안 실패를 수행했습니다.
배포
책임과 안전 검토 완료 후, 승인된 각 Gemini 모델 버전에 대한 내부 모델 카드가 생성되어 중요한 성능 및 책임 메트릭의 구조화되고 일관된 내부 문서화와 시간이 지남에 따라 이러한 메트릭의 적절한 외부 커뮤니케이션을 알리기 위해 사용됩니다. 연구진은 기술 보고서 업데이트와 기업 고객을 위한 문서에서 지속적으로 외부 모델 및 시스템 카드를 출시합니다. Gemini Ultra 모델 카드는 부록 10.1을 참조하십시오.
또한, 사용 약관, 모델 배포 및 접근, 변경 제어, 로깅, 모니터링 및 피드백과 같은 운영 측면을 다루는 온라인 콘텐츠는 Gemini 및 Cloud Vertex AI와 같은 관련 제품 웹사이트에서 찾을 수 있습니다.
토론 및 결론
Gemini 모델 패밀리의 주요 성과와 기여
연구진은 텍스트, 코드, 이미지, 오디오, 비디오 영역에서 멀티모달 모델 능력을 발전시키는 새로운 모델 패밀리인 Gemini를 제시했습니다. 가장 강력한 사전 훈련 모델인 Gemini Ultra는 사후 훈련된 Gemini Apps 및 Gemini API 변형과 함께 전반적으로 상당한 발전을 이루었습니다.
자연어 영역에서는 대규모 데이터와 모델 훈련의 신중한 개발로부터 얻어진 성능 향상이 지속적으로 품질 개선을 제공하며, 여러 벤치마크에서 새로운 최첨단 성능을 달성했습니다. 특히 Gemini Ultra는 2020년 처음 출시된 이후 LLM의 진전을 측정하는 사실상의 척도가 되어온 시험 벤치마크 MMLU에서 90.0%를 기록하여 인간 전문가 성능을 능가한 최초의 모델이 되었습니다.
멀티모달 영역에서 Gemini Ultra는 작업별 수정이나 튜닝 없이도 대부분의 이미지 이해, 비디오 이해, 오디오 이해 벤치마크에서 새로운 최첨단 성능을 달성했습니다. 특히 Gemini Ultra의 멀티모달 추론 능력은 대학 수준의 주제 지식과 신중한 추론이 필요한 이미지에 대한 질문으로 구성된 최근 MMMU 벤치마크에서의 최첨단 성능을 통해 명확히 드러났습니다.
새로운 사용 사례와 애플리케이션 가능성
벤치마크에서의 최첨단 결과를 넘어서, 연구진이 가장 흥미롭게 생각하는 것은 Gemini 모델이 가능하게 하는 새로운 사용 사례들입니다. 차트나 인포그래픽과 같은 복잡한 이미지를 파싱하고, 이미지, 오디오, 텍스트의 인터리브된 시퀀스에 대해 추론하며, 응답으로 인터리브된 텍스트와 이미지를 생성하는 Gemini 모델의 새로운 능력은 광범위한 새로운 애플리케이션을 열어줍니다.
앞서 보여준 다양한 예시들과 부록에서 확인할 수 있듯이, Gemini 모델은 교육, 일상적 문제 해결, 다국어 의사소통, 정보 요약, 추출, 창의성과 같은 영역에서 새로운 접근법을 가능하게 할 수 있습니다. 연구진은 이러한 모델의 사용자들이 자체 조사에서 겨우 표면만 긁어본 것에 불과한 모든 종류의 유익한 새로운 용도를 발견할 것으로 기대합니다.
현재 LLM의 한계와 지속적인 연구 필요성
인상적인 능력에도 불구하고, LLM 사용에는 한계가 있다는 점을 주목해야 합니다. 모델 출력이 더욱 신뢰할 수 있고 검증 가능하도록 보장하기 위해 LLM이 생성하는 "환각(hallucinations)"에 대한 지속적인 연구와 개발이 필요합니다.
또한 LLM은 시험 벤치마크에서 인상적인 성능을 달성함에도 불구하고 인과적 이해, 논리적 연역, 반사실적 추론과 같은 고수준 추론 능력이 필요한 작업에서 여전히 어려움을 겪고 있습니다. 이는 현재 최첨단 LLM이 많은 벤치마크를 포화시키고 있는 상황에서 이들의 진정한 이해를 측정하기 위한 더욱 도전적이고 견고한 평가의 필요성을 강조합니다.
미래 비전과 연구 방향
Gemini 패밀리는 지능을 해결하고, 과학을 발전시키며, 인류에게 도움이 되고자 하는 연구진의 사명을 향한 한 걸음 더 나아간 것이며, 이러한 모델이 Google의 동료들과 그 너머에서 어떻게 사용되는지 보게 되어 열정적입니다. 연구진은 Google에서 10년 이상 추구해온 영역인 머신러닝, 데이터, 인프라, 책임감 있는 개발의 많은 혁신을 기반으로 구축했습니다.
이 보고서에서 제시한 모델들은 많은 모달리티에 걸쳐 광범위한 일반화 능력을 갖춘 대규모, 모듈화된 시스템을 개발하려는 더 광범위한 미래 목표를 향한 강력한 기반을 제공합니다. 이러한 비전은 단순히 개별 작업에서의 성능 향상을 넘어서, 다양한 모달리티와 도메인에서 일반적으로 적용 가능한 지능 시스템의 구축을 목표로 합니다.
기술적 혁신의 의미와 영향
Gemini 모델의 개발 과정에서 달성된 기술적 혁신들은 AI 연구와 혁신의 새로운 시대를 위한 길을 제시합니다. 네이티브 멀티모달 처리, 대규모 분산 훈련 인프라, 혁신적인 사후 훈련 방법론, 그리고 포괄적인 책임감 있는 배포 접근법은 모두 향후 AI 시스템 개발에 중요한 기여를 제공합니다.
특히 TPU 기반 대규모 훈련 인프라에서의 혁신, Silent Data Corruption 대응 기술, 그리고 결정론적 재생 시스템은 대규모 AI 시스템의 신뢰성과 효율성을 보장하는 중요한 기술적 기여로 평가됩니다. 이러한 인프라 혁신들은 단순히 Gemini 모델의 훈련을 가능하게 한 것을 넘어서, 향후 더욱 대규모의 AI 모델 개발을 위한 기반을 마련했습니다.
멀티모달 AI의 새로운 패러다임
Gemini 패밀리의 새로운 크로스 모달 추론 및 언어 이해 능력은 다양한 사용 사례를 가능하게 할 것으로 믿어지며, 이는 인공지능이 인간 수준의 지능에 한 걸음 더 가까워졌음을 의미합니다. 텍스트, 이미지, 오디오, 비디오를 자연스럽게 통합하여 처리하고 생성할 수 있는 능력은 AI 시스템이 인간과 더욱 자연스럽고 효과적으로 상호작용할 수 있는 새로운 가능성을 열어줍니다.
이러한 멀티모달 능력의 발전은 단순히 기술적 성취를 넘어서, AI가 실제 세계의 복잡하고 다양한 정보를 이해하고 처리할 수 있는 능력을 크게 향상시켰다는 점에서 중요한 의미를 갖습니다. 이는 교육, 의료, 창작, 연구 등 다양한 분야에서 AI의 실용적 활용 가능성을 크게 확장시킬 것으로 예상됩니다.
부록
Gemini Ultra 모델 카드
Gemini Ultra 모델 카드는 모델의 기술적 사양, 사용 목적, 구현 프레임워크, 그리고 책임감 있는 배포를 위한 중요한 정보들을 체계적으로 문서화한 공식 문서입니다. 이 모델 카드는 개발자와 연구자들이 Gemini Ultra 모델을 이해하고 적절하게 활용할 수 있도록 포괄적인 정보를 제공합니다.
모델 개요 및 아키텍처
Gemini V1.0은 파라미터 수에 따라 Nano, Pro, Ultra로 구분되는 최첨단 언어 모델 패밀리로, Transformer 디코더 전용 아키텍처를 기반으로 구축되었습니다. 모델들은 32K 컨텍스트 길이를 지원하도록 훈련되었으며, 멀티 쿼리 어텐션과 같은 효율적인 어텐션 메커니즘을 채용하고 있습니다.
Gemini는 이미지, 오디오, 비디오, 텍스트 데이터에 대해 공동으로 훈련되어 모달리티 전반에 걸친 강력한 일반화 능력과 각 도메인에서의 최첨단 이해 및 추론 성능을 모두 갖춘 모델을 구축하는 것을 목표로 합니다. 모델 카드에서 설명하는 사후 훈련된 모델들은 Gemini Ultra 사전 훈련 모델 위에 구축된 Gemini API 및 Gemini Apps 모델 변형들입니다.
사후 훈련 과정에서는 RLHF를 위한 다중 목표 보상 모델 훈련을 지원하기 위해 추가적인 아키텍처 수정도 이루어집니다. 이러한 수정은 모델이 인간의 선호도와 더욱 잘 정렬되도록 하는 중요한 역할을 합니다.
입력 및 출력 사양
Gemini Ultra는 다양한 형태의 입력을 처리할 수 있는 멀티모달 모델입니다. 입력으로는 텍스트(질문, 프롬프트, 요약할 문서들), 이미지, 비디오, 오디오 파일을 받을 수 있습니다. 출력으로는 입력에 대한 응답으로 생성된 텍스트를 제공하며, 이는 질문에 대한 답변, 여러 문서의 요약, 문서나 비디오 간의 비교 등이 될 수 있습니다.
이러한 멀티모달 처리 능력은 Gemini Ultra가 단순한 텍스트 생성을 넘어서 복합적인 정보 처리와 추론이 가능한 고도화된 AI 시스템임을 보여줍니다.
사용 목적 및 애플리케이션
Gemini Ultra는 언어 모델 연구를 가속화하고, Google 제품 내 기능의 구성 요소로 사용되며, Gemini App 및 Search Generative Experience와 같은 특정 애플리케이션의 구성 요소로 활용되도록 설계되었습니다. Gemini Ultra를 기반으로 구축된 서비스와 제품들은 안전 정책과 관련된 추가적인 프로세스 및 기술적 보호 조치와 함께 Google Cloud Vertex API 및 Google Labs를 통해 외부 개발자들에게도 제공됩니다.
그러나 모델 카드에서는 중요한 주의사항을 명시하고 있습니다. Gemini는 범용 서비스나 제품의 일부로 제공되거나 특정 다운스트림 애플리케이션 내에서 사용되기 전에 해당 다운스트림 사용과 관련된 안전성 및 공정성 우려사항에 대한 사전 평가와 완화 조치 없이는 사용되어서는 안 됩니다.
구현 프레임워크 및 하드웨어
Gemini Ultra의 훈련은 TPUv4 및 TPUv5e에서 수행되었으며, 소프트웨어 측면에서는 JAX와 ML Pathways를 사용했습니다. JAX는 연구자들이 TPU를 포함한 최신 세대 하드웨어를 활용하여 대규모 모델을 더 빠르고 효율적으로 훈련할 수 있게 해주는 프레임워크입니다.
ML Pathways는 여러 작업에 걸쳐 일반화할 수 있는 인공지능 시스템을 구축하려는 Google의 노력을 지원하는 인프라 소프트웨어입니다. 이는 Gemini V1.0 모델과 같은 파운데이션 모델, 특히 대규모 언어 모델에 특히 적합합니다.
JAX와 ML Pathways의 '단일 컨트롤러' 프로그래밍 모델은 단일 Python 프로세스가 전체 훈련 실행을 조율할 수 있게 하여 개발 워크플로우를 극적으로 단순화합니다. 이러한 접근법은 복잡한 분산 훈련 과정을 관리하는 데 있어 중요한 혁신을 제공합니다.
모델 특성 및 상태
모델 초기화는 사전 훈련에서 무작위 초기화를 사용했으며, 사후 훈련은 사전 훈련의 후반 단계에서 얻은 체크포인트로부터 초기화되었습니다. 이러한 체크포인트들은 지도 파인튜닝을 통해 미세 조정되었고, 이후 보상 모델 훈련과 RLHF를 초기화하는 데 사용되었습니다.
Gemini Ultra는 오프라인 데이터셋에서 훈련된 정적 모델입니다. 이는 모델이 고정된 데이터셋에서 훈련되었으며, 실시간으로 새로운 데이터를 학습하지 않는다는 의미입니다. 이러한 특성은 모델의 행동을 예측 가능하게 하고 일관성을 보장하는 데 중요합니다.
데이터셋 개요
Gemini 모델들은 멀티모달이면서 다국어인 데이터셋에서 훈련되었습니다. 사전 훈련 데이터셋은 웹 문서, 도서, 코드의 데이터를 사용하며, 이미지, 오디오, 비디오 데이터를 포함합니다. 이러한 다양한 데이터 소스의 통합은 모델이 광범위한 지식과 능력을 습득할 수 있게 합니다.
평가 데이터셋의 경우, 사전 훈련 및 사후 훈련된 Gemini Ultra 모델을 외부 LLM들과 이전 최고 모델인 PaLM 2와 비교하여 추론, 독해, STEM, 코딩을 다루는 일련의 텍스트 기반 학술 벤치마크에서 평가했습니다. 또한 고수준 객체 인식, 세밀한 전사, 차트 이해, 멀티모달 추론의 네 가지 서로 다른 멀티모달 능력에서도 Gemini 모델을 평가했습니다.
사후 훈련을 위해서는 실제 사용 사례를 대표하는 다양한 프롬프트 세트를 먼저 수집했습니다. 그 다음 지도 파인튜닝을 위해 주어진 프롬프트에 대한 모델 출력이 어떠해야 하는지에 대한 시연 데이터를 수집했습니다. 또한 주어진 프롬프트에 대한 다양한 가능한 응답을 추가로 수집하고, 이에 대한 피드백 데이터를 수집하여 보상 모델을 훈련했습니다.
평가 결과 및 벤치마크
모델 카드는 평가 결과에 대한 자세한 정보를 위해 논문의 평가 섹션을 참조하도록 안내하고 있습니다. 이는 Gemini Ultra가 달성한 인상적인 성능 지표들, 특히 MMLU에서의 90.04% 정확도와 다양한 멀티모달 벤치마크에서의 최첨단 성능을 포함합니다.
사후 훈련 인간 평가 결과 또한 별도 섹션에서 다루어지며, 이는 모델이 인간의 선호도와 얼마나 잘 정렬되어 있는지를 보여주는 중요한 지표입니다.
모델 사용 및 제한사항
민감한 사용에 대해서는 Gemini 모델과 관련된 위험과 민감한 사용에 대한 분석을 위해 영향 평가 섹션을 참조하도록 안내하고 있습니다. 알려진 제한사항으로는 영향 평가에서 설명된 제한사항들이 있으며, Gemini 모델은 제안된 다운스트림 애플리케이션에서의 잠재적 해악에 대한 추가 분석 없이는 다운스트림 애플리케이션에 사용되어서는 안 됩니다.
윤리적 고려사항 및 위험
Gemini V1.0 모델의 잠재적 위험과 영향에 대한 성찰은 책임감 있는 배포 섹션에서 찾을 수 있습니다. 다양한 위험에 대한 평가 세부사항은 안전 평가 섹션에서 확인할 수 있습니다. 이러한 포괄적인 위험 평가와 완화 조치는 Gemini Ultra의 책임감 있는 배포를 보장하는 핵심 요소입니다.
MMLU 벤치마크에서의 체인 오브 소트 비교
연구진은 MMLU에서 여러 체인 오브 소트 접근법을 대조하고 그 결과를 논의했습니다. 새로운 접근법을 제안했는데, 이는 모델이 k개의 체인 오브 소트 샘플을 생성하고, 모델이 임계값 이상으로 확신하는 경우 다수결 투표를 선택하며, 그렇지 않으면 탐욕적 샘플 선택으로 되돌아가는 방식입니다. 임계값은 각 모델의 검증 분할 성능을 기반으로 최적화됩니다. 이 제안된 접근법은 불확실성 라우팅 체인 오브 소트라고 불립니다.
이 접근법의 직관은 모델이 명백히 일관성이 없을 때 체인 오브 소트 샘플이 최대 우도 결정에 비해 성능을 저하시킬 수 있다는 것입니다. 연구진은 Gemini Ultra와 GPT-4 모두에서 제안된 접근법의 이득을 비교했습니다.
Gemini Ultra는 체인 오브 소트 샘플만 사용하는 것에 비해 이 접근법으로부터 더 많은 이득을 얻는다는 것을 발견했습니다. GPT-4의 성능은 탐욕적 샘플링에서 84.2%에서 32개 샘플을 사용한 불확실성 라우팅 체인 오브 소트 접근법으로 87.3%로 향상되었지만, 이미 32개 체인 오브 소트 샘플을 사용하는 것만으로도 이러한 이득을 달성했습니다.
반면 Gemini Ultra는 탐욕적 샘플링에서 84.0%에서 32개 샘플을 사용한 불확실성 라우팅 체인 오브 소트 접근법으로 90.0%까지 성능을 크게 향상시켰으며, 32개 체인 오브 소트 샘플만 사용했을 때는 85.0%로 미미한 향상에 그쳤습니다. 이는 Gemini Ultra가 불확실성을 고려한 체인 오브 소트 접근법에서 특히 큰 이득을 얻을 수 있음을 보여줍니다.
능력 및 벤치마킹 작업
연구진은 텍스트, 이미지, 오디오, 비디오에 걸쳐 Gemini 모델을 평가하기 위한 종합적인 하네스로 50개 이상의 벤치마크를 사용했습니다. 텍스트 이해 및 생성에서 6가지 서로 다른 능력에 대한 벤치마킹 작업의 상세한 목록을 제공합니다. 사실성, 긴 컨텍스트, 수학/과학, 추론, 요약, 다국어. 또한 이미지 이해, 비디오 이해, 오디오 이해 작업에 사용된 벤치마크들도 열거합니다.
사실성 평가를 위해서는 5개의 벤치마크를 사용했습니다. BoolQ, NaturalQuestions-Closed, NaturalQuestions-Retrieved, RealtimeQA, TydiQA-noContext 및 TydiQA-goldP입니다. 이러한 벤치마크들은 모델이 사실적 정보를 얼마나 정확하게 제공할 수 있는지를 평가합니다.
긴 컨텍스트 처리 능력을 위해서는 6개의 벤치마크를 사용했습니다. NarrativeQA, Scrolls-Qasper, Scrolls-Quality, XLsum (영어), XLSum (비영어 언어들), 그리고 하나의 내부 벤치마크입니다. 이는 모델이 긴 문서나 텍스트를 효과적으로 처리할 수 있는 능력을 측정합니다.
수학/과학 영역에서는 8개의 벤치마크를 사용했습니다. GSM8k (CoT 포함), Hendryck's MATH pass@1, MMLU, Math-StackExchange, Math-AMC 2022-2023 문제들, 그리고 3개의 내부 벤치마크입니다. 이러한 평가는 모델의 수학적 추론과 과학적 이해 능력을 종합적으로 측정합니다.
추론 능력을 위해서는 7개의 벤치마크를 사용했습니다. BigBench Hard (CoT 포함), CLRS, Proof Writer, Reasoning-Fermi problems, Lambada, HellaSwag, DROP입니다. 이는 모델의 논리적 추론과 문제 해결 능력을 평가합니다.
요약 작업을 위해서는 5개의 벤치마크를 사용했습니다. XL Sum (영어), XL Sum (비영어 언어들), WikiLingua (비영어 언어들), WikiLingua (영어), XSum입니다. 이는 모델이 긴 텍스트를 효과적으로 요약할 수 있는 능력을 측정합니다.
다국어 능력을 위해서는 10개의 벤치마크를 사용했습니다. XLSum (비영어 언어들), WMT22, WMT23, FRMT, WikiLingua (비영어 언어들), TydiQA (컨텍스트 없음), TydiQA (GoldP), MGSM, 번역된 MMLU, NTREX, FLORES-200입니다. 이러한 광범위한 평가는 모델의 다국어 이해와 생성 능력을 종합적으로 측정합니다.
이미지 및 비디오 이해를 위해서는 이미지 이해에 9개의 벤치마크를 사용했습니다. MMMU, TextVQA, DocVQA, ChartQA, InfographicVQA, MathVista, AI2D, VQAv2, 다국어 이미지 이해를 위한 XM3600입니다. 비디오 이해를 위해서는 6개의 벤치마크를 사용했습니다. 두 가지 다른 언어에서의 캡셔닝을 위한 VATEX, YouCook2, NextQA, ActivityNet-QA, Perception Test MCQA입니다.
오디오 처리를 위해서는 FLEURS, VoxPopuli, Multi-lingual Librispeech와 같은 자동 음성 인식(ASR) 작업과 CoVoST 2와 같은 자동 음성 번역 작업을 포함하여 5개의 벤치마크를 사용했습니다. 이러한 포괄적인 평가 체계는 Gemini 모델의 멀티모달 능력을 다각도로 검증합니다.
정성적 예시
이 섹션에서는 Gemini Ultra 모델을 프롬프팅한 샘플 정성적 예시들을 보여줍니다. 차트, 자연 이미지, 밈에 대한 멀티모달 추론의 몇 가지 예시적 사례들이 제시되어 있습니다. 또한 사용자가 블로그 포스트를 디자인하기 위해 이미지와 텍스트의 인터리브된 시퀀스를 생성하는 Gemini Ultra의 이미지 생성 능력의 예시도 보여줍니다.
영어를 넘어서, 다국어 설정에서 이미지를 이해하는 모델의 능력을 보여주는 예시도 제시됩니다. Gemini 모델들은 또한 수학에서의 멀티모달 이미지 이해와 추론에서 강력한 성능을 보여줍니다. 복잡한 멀티모달 추론의 예시는 모델이 주어진 사용자 작업을 위해 복잡한 이미지 이해, 코드 생성, 지시 따르기 능력을 어떻게 구성하는지를 보여줍니다.
또 다른 예시에서는 모델이 작동하는 코드를 생성하고 복잡한 사용자 지시를 따를 수 있는 능력을 보여줍니다. 마지막으로, 시간적으로 연결된 프레임 세트에 대한 추론을 통해 비디오를 이해하는 Gemini Ultra의 능력을 보여주는 예시도 제시됩니다.
이러한 다양한 정성적 예시들은 Gemini Ultra가 단순한 텍스트 생성을 넘어서 복잡한 멀티모달 추론과 창의적 작업을 수행할 수 있는 고도화된 AI 시스템임을 실증적으로 보여줍니다.
차트 이해 및 데이터 추론
이 예시는 Gemini Ultra의 멀티모달 차트 이해 능력을 보여주는 대표적인 사례입니다. 모델은 "2019년 재활용, 매립, 소각, 잘못 관리된 플라스틱 폐기물의 비율"이라는 제목의 막대 차트를 분석하여 다음과 같은 복합적인 작업을 수행합니다.
먼저 모델은 차트의 텍스트 정보를 정확하게 읽고 이해합니다. 각 국가와 지역별로 매립(Landfilled), 잘못 관리(Mismanaged), 소각(Incinerated), 재활용(Recycled)의 네 가지 범주로 나뉜 데이터를 파악합니다. 그 다음 데이터 포인트들 간의 연결성을 이해하고 특별히 눈에 띄는 통계를 식별합니다.
모델의 응답에서 주목할 점은 미국의 매립 플라스틱 폐기물이 73%로 다른 국가들과 지역들에 비해 현저히 높다는 것을 정확히 식별했다는 것입니다. 이는 단순한 데이터 읽기를 넘어서 비교 분석과 패턴 인식을 수행했음을 보여줍니다. 또한 이러한 데이터가 미국이 다른 국가들과 지역들만큼 플라스틱 폐기물을 재활용하거나 소각하지 않고 있다는 함의를 도출합니다.
마지막으로 모델은 시각적 차트 데이터를 정확한 마크다운 표 형식으로 변환합니다.
국가/지역 | 매립 (%) | 잘못 관리 (%) | 소각 (%) | 재활용 (%) |
---|---|---|---|---|
세계 | 49 | 22 | 19 | 9 |
미국 | 73 | 4 | 19 | 4 |
유럽 | 44 | 6 | 38 | 12 |
아시아 (중국, 인도 제외) | 39 | 34 | 19 | 8 |
이러한 능력은 복잡한 시각적 정보를 구조화된 데이터로 변환하고, 동시에 의미 있는 통찰을 제공할 수 있는 고도화된 멀티모달 이해 능력을 보여줍니다.
멀티모달 질문 답변
이 예시는 Gemini Ultra의 실용적인 멀티모달 질문 답변 능력을 보여줍니다. 사용자가 식물 사진과 함께 "이 식물이 무엇인지 아시나요? 어떻게 관리하는 것이 가장 좋을까요?"라는 질문을 했을 때, 모델은 다음과 같은 포괄적인 응답을 제공합니다.
먼저 모델은 이미지를 분석하여 이것이 Persian shield plant(페르시안 실드 식물)임을 정확히 식별합니다. 이는 동남아시아가 원산지인 열대 식물로, 아름다운 보라색 잎 때문에 인기 있는 실내 식물이라고 설명합니다.
그 다음 모델은 상세한 관리 지침을 제공합니다. 밝고 간접적인 빛을 선호하며, 약간의 직사광선은 견딜 수 있지만 너무 많은 직사광선은 잎을 태울 수 있다고 설명합니다. 또한 따뜻한 온도와 높은 습도를 선호한다고 안내합니다.
물주기에 대해서는 정기적으로 물을 주되 물에 담가두어서는 안 되며, 토양은 촉촉하게 유지하되 질척하지 않게 해야 한다고 구체적으로 설명합니다. 정기적인 분무도 도움이 된다고 조언합니다.
비료와 관련해서는 성장기 동안 2주마다 균형 잡힌 비료를 주는 것이 좋다고 안내하며, 깍지벌레나 거미 진드기 같은 해충에 취약할 수 있으므로 살충 비누나 님 오일로 방제할 수 있다고 설명합니다.
마지막으로 번식 방법까지 제공하여, 봄이나 여름에 줄기 삽목을 통해 번식시킬 수 있으며, 삽목은 물이나 촉촉한 화분용 흙에서 뿌리를 내릴 수 있다고 안내합니다.
특히 주목할 점은 모델이 사용자 질문의 오타("이 식물이 무엇인지 아시나요?"에서 "이"가 "it"의 오타)에도 불구하고 질문을 정확히 이해하고 응답했다는 것입니다. 이는 모델의 강건성과 실용적 활용 가능성을 보여줍니다.
인터리브된 이미지 및 텍스트 생성
이 예시는 Gemini Ultra의 독특한 인터리브된 이미지 및 텍스트 생성 능력을 보여줍니다. 사용자가 "개와 주인이 뉴욕 여행에서 즐거운 시간을 보낸 블로그 포스트를 만들어 주세요. 다양한 랜드마크에서 행복하게 포즈를 취하는 개의 사진 몇 장을 포함해 주세요"라고 요청했을 때, 모델은 텍스트와 이미지가 자연스럽게 어우러진 블로그 포스트를 생성합니다.
모델은 Cooper라는 2살 골든두들의 관점에서 뉴욕 여행기를 작성합니다. 타임스퀘어 근처 호텔에서의 경험, 브로드웨이 쇼 관람, 배우들과의 만남 등을 생생하게 묘사합니다. 특히 센트럴 파크에서의 경험을 강조하며, 넓고 아름다운 공원에서 뛰어다니고 공 던지기 놀이를 한 즐거움을 표현합니다.
자유의 여신상과 엠파이어 스테이트 빌딩 방문도 언급하며, 유명한 랜드마크들을 보게 된 흥분을 전달합니다. 각 텍스트 섹션 사이에는 해당 내용과 관련된 이미지들이 적절히 배치되어 있어, 독자가 시각적으로도 여행의 즐거움을 함께 느낄 수 있도록 구성되어 있습니다.
특히 주목할 점은 모든 이미지에서 개의 시각적 일관성이 유지된다는 것입니다. 같은 골든두들이 다양한 뉴욕의 배경에서 일관된 모습으로 등장하여, 실제 여행 블로그의 사실감을 높입니다. 이는 모델이 단순히 무작위 이미지를 생성하는 것이 아니라, 전체적인 내러티브와 시각적 일관성을 고려하여 콘텐츠를 생성할 수 있음을 보여줍니다.
이미지 이해 및 추론
이 예시는 Gemini Ultra의 시각적 패턴 인식과 논리적 추론 능력을 보여줍니다. 사용자가 세 개의 도형 시퀀스를 보여주며 "네 번째로 와야 할 도형은 무엇인가요? 첫 번째 도형들에 대한 자세한 설명과 함께 추론 과정을 설명해 주세요"라고 질문했을 때, 모델은 체계적인 분석을 수행합니다.
모델은 먼저 각 도형을 정확히 식별합니다. 첫 번째 도형은 삼각형, 두 번째 도형은 사각형, 세 번째 도형은 오각형임을 인식합니다. 그 다음 이들 도형의 공통된 속성을 분석하여 각 도형의 변의 수가 하나씩 증가하는 패턴을 발견합니다.
삼각형(3개 변) → 사각형(4개 변) → 오각형(5개 변)이라는 순서를 파악한 후, 이 패턴을 논리적으로 확장하여 다음에 올 도형이 6개 변을 가진 육각형이어야 한다고 결론짓습니다.
이러한 추론 과정은 단순한 이미지 인식을 넘어서 다음과 같은 고차원적 인지 능력을 보여줍니다.
- 시각적 인식: 각 도형의 기하학적 특성을 정확히 파악
- 패턴 분석: 연속된 도형들 사이의 수학적 관계 발견
- 논리적 추론: 발견된 패턴을 바탕으로 다음 요소 예측
- 언어적 설명: 추론 과정을 명확하고 체계적으로 설명
이는 Gemini Ultra가 시각적 정보를 수학적 개념과 연결하고, 논리적 추론을 통해 문제를 해결할 수 있는 능력을 갖추고 있음을 보여주는 중요한 사례입니다.
기하학적 추론
이 예시는 Gemini Ultra의 수학적 문제 해결 능력을 보여줍니다. 면적이 100 제곱 단위인 평행사변형의 높이를 구하는 문제에서, 모델은 체계적인 수학적 접근법을 사용합니다.
모델은 먼저 평행사변형의 면적 공식을 적용합니다. 면적 = 밑변 × 높이. 주어진 조건에 따라 100 = (x + 15) × x라는 방정식을 설정합니다. 이를 전개하면 x² + 15x - 100 = 0이라는 이차방정식을 얻습니다.
이차방정식을 풀면 x₁ = 5, x₂ = -20이라는 두 해를 구합니다. 여기서 모델은 기하학적 맥락을 고려하여 음수인 두 번째 해는 물리적으로 의미가 없다고 판단하고 배제합니다. 따라서 최종 답은 5라고 결론짓습니다.
이 과정에서 모델은 다음과 같은 수학적 능력을 보여줍니다.
- 공식 적용: 평행사변형 면적 공식의 정확한 적용
- 방정식 설정: 주어진 조건을 수학적 방정식으로 변환
- 대수적 조작: 이차방정식의 정확한 해법
- 논리적 판단: 기하학적 맥락에서 해의 타당성 검증
특히 주목할 점은 모델이 단순히 계산만 수행하는 것이 아니라, 각 단계에서 의미 있는 추론을 제공한다는 것입니다. 음수 해를 배제하는 과정에서 "두 번째 근은 음수이므로 받아들일 수 없습니다"라고 명시적으로 설명하여, 수학적 엄밀성과 실용적 판단을 모두 보여줍니다.
객체 간 연결성 발견
이 예시는 Gemini Ultra의 창의적 추론과 지식 연결 능력을 보여줍니다. 사용자가 달과 골프공의 이미지를 제시하며 "이들 사이의 연결점을 찾아보세요. 힌트: 역사적 사건을 생각해보세요"라고 질문했을 때, 모델은 흥미로운 역사적 사실을 정확히 식별합니다.
모델은 "달은 인간이 골프를 친 유일한 천체입니다. 1971년 아폴로 14호 승무원들이 달 표면에서 골프공 두 개를 쳤습니다"라고 응답합니다. 이는 단순한 이미지 인식을 넘어서 다음과 같은 고차원적 능력을 보여줍니다.
- 시각적 인식: 두 개의 서로 다른 객체(달, 골프공) 정확한 식별
- 지식 검색: 광범위한 지식 베이스에서 관련 정보 탐색
- 연관성 발견: 겉보기에 무관해 보이는 두 객체 간의 의미 있는 연결점 발견
- 역사적 맥락: 특정 역사적 사건(아폴로 14호 미션)에 대한 정확한 지식
이러한 능력은 Gemini Ultra가 단순한 패턴 매칭을 넘어서 창의적이고 통찰력 있는 추론을 수행할 수 있음을 보여줍니다. 특히 힌트를 통해 역사적 맥락을 고려하라는 지시를 정확히 이해하고, 관련된 역사적 사실을 정확히 제시한 것은 모델의 종합적 추론 능력을 잘 보여주는 사례입니다.
시각적 단서 기반 멀티모달 추론
이 예시는 Gemini Ultra의 정밀한 시각적 분석과 지리적 추론 능력을 보여줍니다. 사용자가 "이 이미지가 촬영된 정확한 위치를 아시나요?"라고 질문했을 때, 모델은 놀라울 정도로 구체적이고 정확한 위치 정보를 제공합니다.
모델은 "이 이미지는 뉴욕시에서 촬영되었습니다. 배경에 엠파이어 스테이트 빌딩이 보입니다. 전경의 거리는 8번가이고, 교차로는 서34번가입니다"라고 응답합니다.
이러한 정확한 위치 식별은 다음과 같은 복합적인 능력을 보여줍니다.
- 랜드마크 인식: 엠파이어 스테이트 빌딩이라는 특징적인 건물의 정확한 식별
- 공간적 추론: 건물의 위치와 각도를 바탕으로 촬영 지점 추정
- 지리적 지식: 뉴욕시의 상세한 거리 체계에 대한 정확한 지식
- 시각적 세부 분석: 이미지의 미세한 시각적 단서들을 종합적으로 분석
특히 주목할 점은 모델이 단순히 "뉴욕"이라고 답하는 것이 아니라, 구체적인 교차로(8번가와 서34번가)까지 정확히 식별했다는 것입니다. 이는 이미지에서 보이는 시각적 단서들(건물의 각도, 거리의 방향, 주변 환경 등)을 종합적으로 분석하여 매우 정밀한 위치 추정을 수행했음을 의미합니다.
이러한 능력은 실제 네비게이션, 위치 기반 서비스, 지리적 분석 등 다양한 실용적 애플리케이션에서 활용될 수 있는 고도화된 멀티모달 추론 능력을 보여줍니다.
멀티모달 유머 이해
이 예시는 Gemini Ultra의 문화적 맥락 이해와 유머 해석 능력을 보여줍니다. 사용자가 게임 관련 밈을 제시하며 "이 밈을 설명해 주실 수 있나요?"라고 질문했을 때, 모델은 복잡한 기술적 개념과 문화적 맥락을 모두 이해하여 설명합니다.
모델은 "이 밈은 300 FPS로 게임을 플레이하는 사람에 관한 것인데, 그들의 모니터는 75Hz에 불과합니다. 그 사람은 게임을 따라잡으려고 하지만 모니터가 표시하기에는 너무 빠릅니다. 이 밈이 재미있는 이유는 모니터가 충분히 빠르지 않은 상태에서 게임을 플레이해본 경험이 있는 사람이라면 누구나 공감할 수 있기 때문입니다"라고 설명합니다.
이러한 설명은 다음과 같은 복합적인 이해 능력을 보여줍니다.
- 기술적 개념 이해: FPS(초당 프레임 수)와 Hz(주사율)의 차이와 관계 이해
- 시각적 해석: 밈 이미지의 시각적 요소들이 전달하는 의미 파악
- 문화적 맥락: 게이머 커뮤니티에서 공통적으로 경험하는 문제 상황 인식
- 유머 메커니즘: 왜 이것이 재미있는지에 대한 설명 (공감대 형성)
특히 주목할 점은 모델이 이미지나 프롬프트에서 명시적으로 언급되지 않은 문화적 맥락을 스스로 추론했다는 것입니다. 300 FPS와 75Hz 모니터 간의 불일치가 왜 문제가 되는지, 그리고 이것이 왜 게이머들에게 공감대를 형성하는지를 정확히 파악하여 설명했습니다.
이는 Gemini Ultra가 단순한 이미지 설명을 넘어서 복잡한 기술적 개념, 문화적 맥락, 그리고 유머의 메커니즘까지 종합적으로 이해할 수 있는 고도화된 멀티모달 추론 능력을 갖추고 있음을 보여주는 중요한 사례입니다.
다국어 설정에서의 상식 추론
이 예시는 Gemini Ultra의 다국어 상식 추론 능력을 보여줍니다. 사용자가 중국어로 된 가족 관계 차트를 제시하며 "이 차트를 바탕으로 가족의 각 쪽 조부모를 어떻게 불러야 하는지 설명해 주세요"라고 질문했을 때, 모델은 정확한 중국어 호칭을 제공합니다.
모델은 "아버지 쪽에서는 조부모를 Yéye와 Nǎinai라고 부릅니다. 어머니 쪽에서는 조부모를 Wàigōng과 Wàipó라고 부릅니다"라고 응답합니다.
이러한 응답은 다음과 같은 능력을 보여줍니다.
- 시각적 차트 해석: 가족 관계를 나타내는 도표의 구조와 연결 관계 이해
- 다국어 지식: 중국어 가족 호칭 체계에 대한 정확한 지식
- 문화적 이해: 중국 문화에서 부계와 모계를 구분하는 호칭 체계 인식
- 상식적 추론: 차트의 정보를 실제 사용 가능한 조언으로 변환
특히 중국어에서는 부계 조부모(爷爷/奶奶)와 모계 조부모(外公/外婆)를 구분하여 부르는 문화적 특성을 정확히 반영한 것이 인상적입니다. 이는 단순한 언어 번역을 넘어서 문화적 맥락과 가족 관계의 미묘한 차이를 이해하고 있음을 보여줍니다.
추론 및 코드 생성
이 섹션에서는 Gemini Ultra가 복잡한 사용자 요구사항을 이해하고 이를 실제 작동하는 웹 애플리케이션으로 구현하는 능력을 보여줍니다. 사용자가 "Opossum Search"라는 웹 앱 생성을 요청했을 때, 다음과 같은 구체적인 요구사항들이 제시되었습니다.
- 검색 쿼리마다 Google 검색으로 리디렉션하되, 쿼리 앞에 "opossum"이라는 단어 추가
- Google 검색과 시각적으로 유사한 디자인
- Google 로고 대신 인터넷에서 가져온 주머니쥐 사진 사용
- 별도의 JS나 CSS 파일 없이 단일 HTML 파일로 구현
- 푸터에 "Powered by Google Search" 표시
모델은 이러한 복잡한 요구사항을 모두 충족하는 완전한 HTML 코드를 생성했습니다. 생성된 코드는 다음과 같은 특징을 보여줍니다.
구조적 완성도: HTML 문서의 기본 구조(DOCTYPE, html, head, body)를 완벽하게 갖추고 있으며, 모든 요소가 적절히 중첩되어 있습니다.
스타일링: 인라인 CSS를 사용하여 Google과 유사한 깔끔한 디자인을 구현했습니다. 헤더, 검색바, 푸터의 스타일링이 모두 포함되어 있습니다.
기능 구현: JavaScript를 사용하여 검색 기능을 완전히 구현했습니다. 사용자가 입력한 쿼리 앞에 "opossum"을 자동으로 추가하여 Google 검색으로 리디렉션하는 로직이 정확히 작동합니다.
요구사항 준수: 모든 명시된 요구사항이 정확히 반영되었습니다. 주머니쥐 이미지 사용, 단일 파일 구현, 적절한 푸터 텍스트 등이 모두 포함되어 있습니다.
이는 Gemini Ultra가 자연어로 표현된 복잡한 요구사항을 이해하고, 이를 실제 작동하는 코드로 변환할 수 있는 고도화된 코드 생성 능력을 갖추고 있음을 보여줍니다.
수학: 미적분학
이 예시는 Gemini Ultra의 고급 수학 문제 해결 능력을 보여줍니다. sinh x + cosh y = x + y라는 쌍곡함수 방정식의 도함수를 구하는 문제에서, 모델은 체계적인 미적분 접근법을 사용합니다.
모델은 먼저 쌍곡함수의 기본 도함수를 정확히 적용합니다.
- d/dx(cosh x) = sinh x
- d/dy(sinh y) = cosh y
그 다음 암시함수 미분법을 사용하여 양변을 x에 대해 미분합니다. cosh x + sinh y · dy/dx = 1 + dy/dx
이를 dy/dx에 대해 정리하면: dy/dx = (1 - cosh x)/(sinh y - 1)
모델은 각 단계를 명확히 설명하고, 최종 답을 LaTeX 형식으로 정확하게 표현합니다. 이는 다음과 같은 수학적 능력을 보여줍니다.
- 쌍곡함수 지식: sinh와 cosh 함수의 도함수에 대한 정확한 지식
- 암시함수 미분: 복잡한 암시함수에 대한 미분법 적용
- 대수적 조작: 방정식을 목표 변수에 대해 정리하는 능력
- 수학적 표현: LaTeX를 사용한 정확한 수학적 표기법
특히 주목할 점은 모델이 단계별 설명과 함께 최종 답을 명확히 제시했다는 것입니다. 이는 수학 교육에서 중요한 과정 중심의 문제 해결 접근법을 보여줍니다.
다단계 추론 및 수학
이 예시는 Gemini Ultra의 복잡한 다단계 수학 추론 능력을 보여줍니다. 2018년 두 공장의 생산량과 연간 증가율이 주어진 상황에서, 향후 몇 년간의 생산량을 계산하고 특정 주장을 검증하는 문제입니다.
문제 설정:
- 2018년 공장 A: 5억 포린트, 연간 5% 증가
- 2018년 공장 B: 4억 포린트, 연간 6% 증가
- 검증할 주장: 두 공장 간 생산량 차이가 점점 줄어들 것이다
모델은 체계적으로 각 연도별 계산을 수행합니다.
2019년 계산:
- 공장 A: 500 × 1.05 = 525백만 포린트
- 공장 B: 400 × 1.06 = 424백만 포린트
- 차이: 525 - 424 = 101백만 포린트
2020년 계산:
- 공장 A: 525 × 1.05 = 551.25백만 포린트
- 공장 B: 424 × 1.06 = 449.44백만 포린트
- 차이: 551.25 - 449.44 = 101.81백만 포린트
2021년 계산:
- 공장 A: 551.25 × 1.05 = 578.81백만 포린트
- 공장 B: 449.44 × 1.06 = 476.41백만 포린트
- 차이: 578.81 - 476.41 = 102.4백만 포린트
모델은 계산 결과를 정확한 마크다운 표로 정리하고, 두 공장 간 생산량 차이가 실제로는 증가하고 있다는 것을 보여줍니다. 따라서 "차이가 줄어들 것"이라는 주장이 거짓임을 명확히 증명합니다.
이는 다음과 같은 능력을 보여줍니다.
- 복합 이자 계산: 연속적인 백분율 증가 계산의 정확한 적용
- 데이터 조직화: 계산 결과를 체계적인 표 형식으로 정리
- 논리적 분석: 수치 데이터를 바탕으로 한 주장의 참/거짓 판단
- 명확한 설명: 각 계산 단계와 최종 결론의 명확한 제시
특히 모델이 단순히 계산만 수행하는 것이 아니라, 결과의 의미를 해석하고 원래 주장에 대한 명확한 반박을 제시한 것이 인상적입니다.
복잡한 이미지 이해, 코드 생성, 지시 따르기
이 예시는 Gemini Ultra의 가장 인상적인 멀티모달 추론 능력 중 하나를 보여줍니다. 사용자가 네 개의 서브플롯을 제시하며 "왼쪽 상단 서브플롯에 묘사된 함수에 1000을 곱한 다음, 왼쪽 하단 서브플롯에 묘사된 함수에 더하세요. 결과 플롯 하나를 위한 matplotlib 코드를 생성하세요"라고 요청했을 때, 모델은 놀라운 역 그래픽스 능력을 보여줍니다.
모델은 다음과 같은 복합적인 작업을 성공적으로 수행합니다.
1. 함수 인식: 각 서브플롯에 그려진 함수들을 정확히 식별합니다
- 왼쪽 상단: 사인 함수 (sin(x))
- 왼쪽 하단: 지수 함수 (exp(x))
2. 수학적 변환: 요청된 수학적 연산을 정확히 이해합니다
- sin(x) × 1000 + exp(x)
3. 코드 생성: 완전히 작동하는 matplotlib 코드를 생성합니다.
import numpy as np
import matplotlib.pyplot as plt
x = np.linspace(0, 10, 1000)
y1 = np.sin(x)
y2 = np.exp(x)
plt.plot(x, 1000*y1 + y2)
plt.show()
4. 결과 검증: 생성된 코드가 실제로 올바른 결과를 만들어내는지 확인할 수 있는 결과 그래프도 제시합니다.
이러한 능력은 다음과 같은 고도화된 기술들의 조합을 보여줍니다.
- 역 그래픽스: 시각적 플롯으로부터 원본 함수를 추론하는 능력
- 수학적 추상화: 시각적 정보를 수학적 표현으로 변환하는 능력
- 코드 합성: 추상적 요구사항을 실행 가능한 코드로 변환하는 능력
- 통합적 추론: 여러 모달리티(시각, 텍스트, 코드)를 seamlessly하게 연결하는 능력
이는 Gemini Ultra의 네이티브 멀티모달성을 강조하며, 이미지와 텍스트의 인터리브된 시퀀스에 걸친 복잡한 추론 능력을 보여주는 탁월한 사례입니다.
비디오 이해 및 추론
이 예시는 Gemini Ultra의 시간적 비디오 이해와 전문적 분석 능력을 보여줍니다. 축구 페널티킥 실패 장면을 담은 비디오를 분석하며 "이 사람이 기술을 어떻게 개선할 수 있을까요?"라는 질문에 대해, 모델은 전문적이고 구체적인 기술적 조언을 제공합니다.
모델의 분석은 다음과 같은 세부적인 기술적 요소들을 포함합니다.
볼 접촉 메커니즘: "이 축구 선수는 볼 스트라이킹 메커니즘을 개선해야 합니다. 발이 공과 좋은 접촉을 하지 못하고 있어서 공이 골대에서 멀어지며 위로 날아가고 있습니다."
신체 위치: "신체 위치도 개선해야 합니다. 차는 발의 반대편 다리를 차는 발 앞에 두고 슛에 몸을 기울여야 하며, 차는 발로 팔로우 스루를 해야 합니다."
이러한 분석은 다음과 같은 고도화된 능력을 보여줍니다.
- 시간적 이해: 비디오의 연속된 프레임들을 분석하여 동작의 전체적인 흐름 파악
- 전문 지식 적용: 축구 기술에 대한 전문적 지식을 바탕으로 한 정확한 분석
- 문제 진단: 실패의 구체적인 원인들을 정확히 식별
- 개선 방안 제시: 실행 가능한 구체적인 기술 개선 조언 제공
특히 주목할 점은 모델이 단순히 "실패했다"고 말하는 것이 아니라, 볼 접촉의 질, 신체 위치, 팔로우 스루 등 축구 기술의 핵심 요소들을 체계적으로 분석했다는 것입니다. 이는 비디오에서 추출한 시각적 정보를 전문적 지식과 결합하여 의미 있는 피드백을 제공할 수 있는 능력을 보여줍니다.
이러한 비디오 이해 및 분석 능력은 스포츠 코칭, 동작 분석, 기술 훈련 등 다양한 실용적 애플리케이션에서 활용될 수 있는 잠재력을 보여줍니다.
References
Subscribe via RSS