• Kimi K2: Open Agentic Intelligence

    TL;DR 이 연구를 시작하게 된 배경과 동기는 무엇입니까? 대규모 언어 모델(LLM)의 발전은 인공지능 분야에서 혁명적인 변화를 예고하고 있습니다. 그러나 기존 모델들은 정적인 데이터 모방에 그치며, 실제 환경에서 자율적으로 추론하고 행동하는 능력에 한계를 보였습니다. 특히 도구 사용, 소프트웨어 개발, 복잡한 다단계 추론과 같은 에이전틱 인텔리전스 영역에서 기존 모델들의 성능은 매우 제한적이었습니다....


  • Gemma 3 Technical Report

    TL;DR 이 연구를 시작하게 된 배경과 동기는 무엇입니까? 대규모 언어 모델의 발전은 AI 기술의 핵심 동력으로 자리 잡았지만, 기존 모델들은 여전히 심각한 한계를 가지고 있었습니다. 특히 긴 컨텍스트 처리의 메모리 비효율성, 제한된 멀티모달 능력, 그리고 다국어 성능의 불균형은 AI 시스템의 실용성을 크게 제한하는 주요 문제였습니다. Google DeepMind 연구팀은 이러한 근본적인...


  • DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

    TL;DR 이 연구를 시작하게 된 배경과 동기는 무엇입니까? 대규모 언어 모델(LLM)의 발전은 인공지능 분야에서 혁명적인 변화를 가져왔지만, 추론 능력의 근본적인 한계는 여전히 중요한 도전 과제로 남아있었습니다. 기존의 지도 학습 미세 조정 방법은 모델에 외부에서 정의된 지식을 주입하는 데 집중했지만, 모델 스스로 복잡한 문제 해결 전략을 자율적으로 개발하는 능력은 제한적이었습니다. 특히...


  • DeepSeek-V3 Technical Report

    TL;DR 이 연구를 시작하게 된 배경과 동기는 무엇입니까? 대규모 언어 모델(LLM) 분야는 최근 몇 년간 급속한 발전을 거듭하고 있으며, 인공 일반 지능(AGI)을 향한 중요한 이정표를 계속해서 세우고 있습니다. 그러나 기존 모델들은 여전히 계산 효율성, 훈련 비용, 추론 성능 측면에서 상당한 한계를 보이고 있었습니다. 특히 클로즈드소스 모델들에 비해 오픈소스 모델들의 성능...


  • Tulu 3: Pushing Frontiers in Open Language Model Post-Training

    TL;DR 이 연구를 시작하게 된 배경과 동기는 무엇입니까? 대규모 언어 모델의 발전은 인공지능 분야에서 혁명적인 변화를 가져왔지만, 사후 훈련 방법론에서 오픈소스와 폐쇄형 접근법 사이에는 여전히 큰 격차가 존재했습니다. 기존의 폐쇄형 모델들은 훈련 데이터와 방법론을 투명하게 공개하지 않아 연구자들의 접근을 제한했고, 오픈소스 모델들은 성능과 정교함에서 뒤처져 있었습니다. 특히 지시 따르기, 수학적...