• From Local to Global: A Graph RAG Approach to Query-Focused Summarization

    TL;DR 이 연구를 시작하게 된 배경과 동기는 무엇입니까? 대규모 언어 모델(LLM)의 발전에도 불구하고, 방대한 문서 컬렉션에 대한 포괄적인 이해와 의미 파악은 여전히 도전적인 과제로 남아있습니다. 기존의 검색 증강 생성(RAG) 시스템들은 지역적 문맥만을 고려하여 “데이터셋의 주요 주제는 무엇인가요?”와 같은 전체적인 이해를 요구하는 질문에 효과적으로 대응하지 못했습니다. 또한 기존의 쿼리 중심 요약(QFS)...


  • DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models

    TL;DR 이 연구를 시작하게 된 배경과 동기는 무엇입니까? 수학적 추론은 복잡하고 구조화된 특성으로 인해 언어 모델에게 상당한 도전 과제를 제시합니다. 현재 GPT-4와 Gemini-Ultra와 같은 최첨단 모델들은 수학적 추론에서 뛰어난 성능을 보이지만 공개적으로 사용할 수 없으며, 접근 가능한 오픈소스 모델들은 성능 면에서 크게 뒤처져 있습니다. 이러한 격차를 해소하기 위해 연구팀은 오픈소스...


  • RAPTOR: Recursive Abstractive Processing for Tree-Organized Retrieval

    TL;DR 이 연구를 시작하게 된 배경과 동기는 무엇입니까? 대규모 언어 모델(LLMs)은 인상적인 성능을 보이고 있지만, 특정 도메인의 전문 지식 부족과 지식의 시의성 문제라는 한계에 직면해 있습니다. 기존의 검색 증강 접근방식은 텍스트를 짧은 청크로 분할하여 검색하는 방식을 사용하지만, 이는 문서의 전체적인 맥락과 계층적 의미 구조를 효과적으로 포착하지 못한다는 한계가 있습니다. 특히...


  • DeepSeek-Coder: When the Large Language Model Meets Programming - The Rise of Code Intelligence

    TL;DR 이 연구를 시작하게 된 배경과 동기는 무엇입니까? 현재 코드 인텔리전스 분야에서는 대부분의 고성능 모델들이 비공개 소스로 제공되어 연구 개발의 확장성과 접근성에 상당한 제약이 있었습니다. 특히 GPT-4나 Gemini와 같은 비공개 모델들이 뛰어난 성능을 보여주고 있지만, 이러한 모델들의 기술적 세부사항이나 학습 방법론에 대한 접근이 제한되어 있었습니다. 이러한 한계를 극복하고 코드 인텔리전스...


  • DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models

    TL;DR 이 연구를 시작하게 된 배경과 동기는 무엇입니까? 대규모 언어 모델의 발전은 파라미터 수와 계산 자원의 증가에 크게 의존해왔으나, 이는 막대한 계산 비용을 수반합니다. 혼합 전문가(Mixture-of-Experts, MoE) 아키텍처는 이러한 문제를 해결할 수 있는 유망한 접근법으로 주목받았지만, 기존 MoE 모델들은 지식 혼재성과 지식 중복성이라는 두 가지 주요 한계에 직면해 있었습니다. 특히...