Bits, Bytes and Neural Networks
A Data Scientist's Digital Playground
-
RAPTOR: Recursive Abstractive Processing for Tree-Organized Retrieval
TL;DR 이 연구를 시작하게 된 배경과 동기는 무엇입니까? 대규모 언어 모델(LLMs)은 인상적인 성능을 보이고 있지만, 특정 도메인의 전문 지식 부족과 지식의 시의성 문제라는 한계에 직면해 있습니다. 기존의 검색 증강 접근방식은 텍스트를 짧은 청크로 분할하여 검색하는 방식을 사용하지만, 이는 문서의 전체적인 맥락과 계층적 의미 구조를 효과적으로 포착하지 못한다는 한계가 있습니다. 특히...
-
DeepSeek-Coder: When the Large Language Model Meets Programming - The Rise of Code Intelligence
TL;DR 이 연구를 시작하게 된 배경과 동기는 무엇입니까? 현재 코드 인텔리전스 분야에서는 대부분의 고성능 모델들이 비공개 소스로 제공되어 연구 개발의 확장성과 접근성에 상당한 제약이 있었습니다. 특히 GPT-4나 Gemini와 같은 비공개 모델들이 뛰어난 성능을 보여주고 있지만, 이러한 모델들의 기술적 세부사항이나 학습 방법론에 대한 접근이 제한되어 있었습니다. 이러한 한계를 극복하고 코드 인텔리전스...
-
DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models
TL;DR 이 연구를 시작하게 된 배경과 동기는 무엇입니까? 대규모 언어 모델의 발전은 파라미터 수와 계산 자원의 증가에 크게 의존해왔으나, 이는 막대한 계산 비용을 수반합니다. 혼합 전문가(Mixture-of-Experts, MoE) 아키텍처는 이러한 문제를 해결할 수 있는 유망한 접근법으로 주목받았지만, 기존 MoE 모델들은 지식 혼재성과 지식 중복성이라는 두 가지 주요 한계에 직면해 있었습니다. 특히...
-
Mixtral of Experts
TL;DR 이 연구를 시작하게 된 배경과 동기는 무엇입니까? 대규모 언어 모델의 발전은 최근 인공지능 분야에서 가장 중요한 연구 주제 중 하나로 자리 잡았다. 그러나 기존 모델들은 계산 비용과 메모리 요구사항이 급격히 증가하면서 실제 응용에 있어 심각한 제약을 가지고 있었다. 특히 모델의 크기가 커질수록 모든 매개변수를 동시에 활성화하는 것은 비현실적이며 비효율적이었다....
-
DeepSeek LLM: Scaling Open-Source Language Models with Longtermism
TL;DR 이 연구를 시작하게 된 배경과 동기는 무엇입니까? 오픈소스 대규모 언어 모델(LLMs)의 발전이 가속화되면서, 모델 스케일링에 대한 명확한 이해의 필요성이 대두되었습니다. 기존 연구들은 스케일링 법칙에 대해 서로 다른 결론을 제시했으며, 하이퍼파라미터 설정에 대한 상세한 설명이 부족했습니다. 특히 AGI 발전의 초기 단계에서 효율적인 모델 스케일링 전략의 수립이 중요한 과제로 대두되었습니다. 이러한...