Bits, Bytes and Neural Networks

DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model

TL;DR 이 연구를 시작하게 된 배경과 동기는 무엇입니까? 대규모 언어 모델(LLM)의 발전은 인공지능 분야에서 혁명적인 변화를 가져왔지만, 동시에 심각한 기술적 도전 과제들을 야기했습니다. 모델의 크기가 증가함에 따라 훈련과 추론에 필요한 계산 자원도 기하급수적으로 늘어나고 있어, 경제적이고 효율적인 모델 개발의 필요성이 대두되었습니다. 특히 기존 트랜스포머 아키텍처는 추론 과정에서 무거운 키-값(KV) 캐시로...

May 7, 2024

in Paper Reviews, Language Models

From Local to Global: A Graph RAG Approach to Query-Focused Summarization

TL;DR 이 연구를 시작하게 된 배경과 동기는 무엇입니까? 대규모 언어 모델(LLM)의 발전에도 불구하고, 방대한 문서 컬렉션에 대한 포괄적인 이해와 의미 파악은 여전히 도전적인 과제로 남아있습니다. 기존의 검색 증강 생성(RAG) 시스템들은 지역적 문맥만을 고려하여 "데이터셋의 주요 주제는 무엇인가요?"와 같은 전체적인 이해를 요구하는 질문에 효과적으로 대응하지 못했습니다. 또한 기존의 쿼리 중심 요약(QFS)...

April 24, 2024

in Paper Reviews, Retrieval Augmented Generation

DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models

TL;DR 이 연구를 시작하게 된 배경과 동기는 무엇입니까? 수학적 추론은 복잡하고 구조화된 특성으로 인해 언어 모델에게 상당한 도전 과제를 제시합니다. 현재 GPT-4와 Gemini-Ultra와 같은 최첨단 모델들은 수학적 추론에서 뛰어난 성능을 보이지만 공개적으로 사용할 수 없으며, 접근 가능한 오픈소스 모델들은 성능 면에서 크게 뒤처져 있습니다. 이러한 격차를 해소하기 위해 연구팀은 오픈소스...

February 5, 2024

in Paper Reviews, Language Models

RAPTOR: Recursive Abstractive Processing for Tree-Organized Retrieval

TL;DR 이 연구를 시작하게 된 배경과 동기는 무엇입니까? 대규모 언어 모델(LLMs)은 인상적인 성능을 보이고 있지만, 특정 도메인의 전문 지식 부족과 지식의 시의성 문제라는 한계에 직면해 있습니다. 기존의 검색 증강 접근방식은 텍스트를 짧은 청크로 분할하여 검색하는 방식을 사용하지만, 이는 문서의 전체적인 맥락과 계층적 의미 구조를 효과적으로 포착하지 못한다는 한계가 있습니다. 특히...

January 31, 2024

in Paper Reviews, Retrieval Augmented Generation

DeepSeek-Coder: When the Large Language Model Meets Programming - The Rise of Code Intelligence

TL;DR 이 연구를 시작하게 된 배경과 동기는 무엇입니까? 현재 코드 인텔리전스 분야에서는 대부분의 고성능 모델들이 비공개 소스로 제공되어 연구 개발의 확장성과 접근성에 상당한 제약이 있었습니다. 특히 GPT-4나 Gemini와 같은 비공개 모델들이 뛰어난 성능을 보여주고 있지만, 이러한 모델들의 기술적 세부사항이나 학습 방법론에 대한 접근이 제한되어 있었습니다. 이러한 한계를 극복하고 코드 인텔리전스...

January 25, 2024

in Paper Reviews, Language Models