• DeepSeek-V3 Technical Report

    TL;DR 이 연구를 시작하게 된 배경과 동기는 무엇입니까? 대규모 언어 모델(LLM) 분야는 최근 몇 년간 급속한 발전을 거듭하고 있으며, 인공 일반 지능(AGI)을 향한 중요한 이정표를 계속해서 세우고 있습니다. 그러나 기존 모델들은 여전히 계산 효율성, 훈련 비용, 추론 성능 측면에서 상당한 한계를 보이고 있었습니다. 특히 클로즈드소스 모델들에 비해 오픈소스 모델들의 성능...


  • Tulu 3: Pushing Frontiers in Open Language Model Post-Training

    TL;DR 이 연구를 시작하게 된 배경과 동기는 무엇입니까? 대규모 언어 모델의 발전은 인공지능 분야에서 혁명적인 변화를 가져왔지만, 사후 훈련 방법론에서 오픈소스와 폐쇄형 접근법 사이에는 여전히 큰 격차가 존재했습니다. 기존의 폐쇄형 모델들은 훈련 데이터와 방법론을 투명하게 공개하지 않아 연구자들의 접근을 제한했고, 오픈소스 모델들은 성능과 정교함에서 뒤처져 있었습니다. 특히 지시 따르기, 수학적...


  • Pixtral 12B

    TL;DR 이 연구를 시작하게 된 배경과 동기는 무엇입니까? 현대 인공지능 연구에서 멀티모달 언어 모델의 발전은 매우 중요한 과제로 대두되고 있습니다. 기존의 대부분 멀티모달 모델들은 이미지 이해 능력과 텍스트 처리 능력 사이에 심각한 성능 불균형을 보였으며, 특히 오픈소스 모델들은 상업용 클로즈드 모델들에 비해 현저히 낮은 성능을 나타냈습니다. 연구진은 이러한 한계를 극복하고,...


  • Gemma 2: Improving Open Language Models at a Practical Size

    TL;DR 이 연구를 시작하게 된 배경과 동기는 무엇입니까? 대규모 언어 모델(LLM)의 발전은 최근 인공지능 분야에서 가장 주목받는 연구 영역 중 하나입니다. 기존의 대규모 모델들은 놀라운 성능을 보여주었지만, 대부분 계산 비용이 매우 높고 접근성이 제한적이었습니다. 특히 소규모 모델들의 성능 개선은 주로 훈련 길이 증가에 의존해 왔으며, 이는 데이터셋 크기에 대해 로그적으로만...


  • The Llama 3 Herd of Models

    TL;DR 이 연구를 시작하게 된 배경과 동기는 무엇입니까? 대규모 언어 모델의 발전은 인공지능 분야에서 가장 중요한 연구 주제 중 하나로 자리 잡았습니다. 기존의 언어 모델들은 여러 가지 한계점을 가지고 있었는데, 특히 데이터 품질, 모델 규모, 그리고 다국어 및 다중 모달 능력에서 제한적이었습니다. Meta AI 연구팀은 이러한 한계를 극복하고 더욱 강력하고...