LightRAG: Simple and Fast Retrieval-Augmented Generation

TL;DR

이 연구를 시작하게 된 배경과 동기는 무엇입니까?

검색 증강 생성(RAG) 기술은 대규모 언어 모델이 외부 지식 소스를 활용하여 더욱 정확하고 맥락에 적합한 응답을 생성할 수 있도록 하는 중요한 기술입니다. 그러나 기존 RAG 시스템들은 두 가지 근본적인 한계를 가지고 있습니다. 첫째, 많은 방법들이 평면적 데이터 표현에 의존하고 있어 엔터티 간의 복잡한 관계를 기반으로 정보를 이해하고 검색하는 능력이 제한됩니다. 둘째, 다양한 엔터티와 그 상호 관계에 걸쳐 일관성을 유지하는 맥락 인식 능력이 부족하여, 사용자의 질의에 완전히 대응하지 못하는 단편적인 응답이 생성됩니다. 예를 들어 "전기차의 부상이 도시 대기질과 대중교통 인프라에 어떤 영향을 미치는가?"라는 질문에 기존 RAG 방법은 각 주제에 관한 개별 문서를 검색할 수는 있지만, 이들 정보를 하나의 응집력 있는 응답으로 종합하는 데 어려움을 겪습니다.

이러한 한계를 극복하기 위해 본 연구는 텍스트 인덱싱과 정보 검색 과정에 그래프 구조를 통합하는 접근법을 제안합니다. 그래프는 서로 다른 엔터티 간의 상호 의존성을 표현하는 데 특히 효과적이며, 이를 통해 관계에 대한 보다 세밀한 이해를 가능하게 합니다. 그래프 기반 지식 구조의 통합은 여러 소스로부터의 정보를 일관되고 맥락적으로 풍부한 응답으로 종합하는 것을 촉진합니다. 이 연구에서는 효과적이고 효율적인 RAG 시스템을 구현하기 위해 세 가지 핵심 과제를 다룹니다. 포괄적 정보 검색은 모든 문서에서 상호 의존적 엔터티의 전체 맥락을 포착하는 것이고, 검색 효율성 향상은 그래프 기반 지식 구조 위에서의 검색 효율을 개선하여 응답 시간을 단축하는 것이며, 새로운 데이터에 대한 빠른 적응은 동적 환경에서 시스템의 적시성을 유지하기 위해 데이터 업데이트에 신속하게 대응하는 것입니다.

이 연구에서 제시하는 새로운 해결 방법은 무엇입니까?

본 연구에서 제안된 LightRAG는 그래프 기반 텍스트 인덱싱 패러다임과 이중 수준 검색 프레임워크를 통합한 혁신적인 모델입니다. 이중 수준 검색 전략에서 저수준 검색은 특정 엔터티와 그 관계에 대한 정밀한 정보에 초점을 맞추고, 고수준 검색은 더 넓은 주제와 테마를 포괄합니다. 세부적인 검색과 개념적인 검색을 결합함으로써 다양한 유형의 질의에 효과적으로 대응할 수 있습니다. 또한 그래프 구조와 벡터 표현의 통합을 통해 관련 엔터티와 관계의 효율적 검색을 가능하게 하며, 전체 인덱스를 재구축할 필요 없이 증분 업데이트 알고리즘을 통해 새로운 데이터를 적시에 통합할 수 있습니다.

LightRAG의 핵심 기여는 세 가지 측면으로 요약됩니다. 일반적 관점에서는 기존 방법의 한계를 극복하기 위한 그래프 강화 RAG 시스템 개발의 중요성을 강조하며, 그래프 구조를 텍스트 인덱싱에 통합하여 엔터티 간의 복잡한 상호 의존성을 효과적으로 표현할 수 있음을 보입니다. 방법론적 측면에서는 이중 수준 검색 패러다임과 그래프 강화 텍스트 인덱싱을 통합한 LightRAG를 제안하며, 증분 업데이트 알고리즘을 통해 계산 비용을 절감하고 동적 환경에서의 적응 속도를 높입니다. 실험적 발견 측면에서는 검색 정확도, 모델 어블레이션, 응답 효율성, 새로운 정보에 대한 적응성 등 여러 핵심 차원에서 기존 RAG 모델 대비 유의미한 개선을 입증합니다.

제안된 방법은 어떻게 구현되었습니까?

LightRAG의 구현은 세 가지 주요 단계로 구성됩니다. 첫 번째는 그래프 기반 텍스트 인덱싱으로, 원본 문서를 1,200 토큰 크기의 청크로 분할한 후 LLM을 활용하여 엔터티와 관계를 추출합니다. 추출된 정보는 $\tilde{D} = (\tilde{V}, \tilde{\varepsilon}) = \text{Dedupe} \circ \text{Prof}(V, \xi)$로 표현되는 지식 그래프로 구성되며, 여기서 $\text{Recog}(\cdot)$ 함수는 엔터티와 관계를 식별하고, $\text{Prof}(\cdot)$ 함수는 각 요소에 대해 텍스트 키-값 쌍을 생성하며, $\text{Dedupe}(\cdot)$ 함수는 중복을 제거합니다. 엔터티는 이름 자체를 유일한 인덱스 키로 사용하는 반면, 관계는 LLM의 강화를 통해 연결된 엔터티들의 전역적 테마를 포함하는 다중 인덱스 키를 가질 수 있습니다. 새로운 문서가 유입되면 동일한 추출 과정을 거쳐 생성된 정보를 기존 그래프와 합집합 연산으로 병합하여 증분 업데이트를 수행합니다.

두 번째는 이중 수준 검색 패러다임으로, 질의에서 로컬 키워드 $k^{(l)}$과 글로벌 키워드 $k^{(g)}$를 동시에 추출합니다. 로컬 키워드는 엔터티 벡터 저장소와 매칭되고, 글로벌 키워드는 관계 벡터 저장소의 글로벌 키와 매칭됩니다. 이후 검색된 그래프 요소의 국소적 서브그래프 내에서 1-홉 이웃 노드를 추가적으로 수집하여 질의의 맥락을 풍부하게 합니다. 이 과정은 ${v_i \mid v_i \in V \land (v_i \in N_v \lor v_i \in N_e)}$로 형식화되며, 검색된 노드의 이웃이거나 검색된 엣지의 이웃인 노드들을 결과 집합에 포함시킵니다. 세 번째는 검색 증강 응답 생성으로, 검색된 엔터티와 관계로부터 수집된 값들의 연결을 LLM에 컨텍스트로 전달하여 최종 응답을 생성합니다. 이 데이터에는 엔터티와 관계의 이름, 설명, 그리고 원본 텍스트에서 발췌한 관련 구절이 포함됩니다.

실험 평가는 UltraDomain 벤치마크에서 선정된 네 가지 데이터셋(Agriculture, CS, Legal, Mix)을 사용하여 수행되었으며, 각 데이터셋은 600,000에서 5,000,000 토큰 규모입니다. 각 데이터셋에 대해 5명의 가상 사용자, 5개의 과제, 각 과제당 5개의 질문을 생성하여 총 125개의 테스트 질문을 확보했습니다. 평가는 GPT-4o-mini를 평가자로 활용하여 포괄성(Comprehensiveness), 다양성(Diversity), 역량 강화(Empowerment), 종합(Overall)의 네 가지 차원에서 LightRAG와 네 가지 베이스라인(Naive RAG, RQ-RAG, HyDE, GraphRAG)을 비교했습니다.

이 연구의 결과가 가지는 의미는 무엇입니까?

실험 결과는 LightRAG의 우월성을 명확하게 입증합니다. Legal 데이터셋에서 LightRAG는 Naive RAG 대비 Overall 기준으로 84.8% 승률을 기록했으며, RQ-RAG 대비 85.6%, HyDE 대비 73.6%의 승률을 달성했습니다. 특히 Diversity 차원에서 LightRAG는 Naive RAG 대비 86.4%, RQ-RAG 대비 88.4%의 압도적 우위를 보였습니다. 동일한 그래프 기반 검색을 활용하는 GraphRAG와의 비교에서도 LightRAG는 Agriculture, CS, Legal 데이터셋에서 각각 54.8%, 52.0%, 52.8%의 Overall 승률을 기록하며 일관된 우위를 확보했습니다. 어블레이션 연구 결과는 이중 수준 검색의 각 구성 요소가 성능에 기여함을 보여주었으며, 특히 고수준 검색 제거 시 Legal 데이터셋의 Overall이 84.8%에서 78.0%로 하락하고, 저수준 검색 제거 시 81.2%로 하락했습니다.

비용 효율성 측면에서 LightRAG는 GraphRAG 대비 극적인 개선을 달성했습니다. 검색 단계에서 GraphRAG는 Legal 데이터셋의 610개 커뮤니티 보고서를 순회하기 위해 약 610,000 토큰을 소비하고 610회의 API 호출이 필요한 반면, LightRAG는 100 토큰 미만만 소비하고 단 1회의 API 호출만 필요합니다. 이는 토큰 소비 기준으로 약 6,000배 이상의 효율성 차이에 해당합니다. 증분 데이터 업데이트에서도 GraphRAG는 새로운 데이터 추가 시 전체 커뮤니티 보고서를 재생성해야 하므로 약 13,990,000 토큰의 추가 비용이 발생하는 반면, LightRAG는 새 데이터의 추출 비용만 발생하여 사실상 추가 오버헤드가 없습니다. 이러한 결과는 LightRAG가 응답 품질에서의 우위와 함께 운용 비용과 동적 적응성 측면에서도 실질적 이점을 제공하는 프레임워크임을 명확히 보여줍니다.

본 연구의 의의는 대규모 동적 환경에서의 RAG 시스템 운용 가능성을 한 단계 끌어올렸다는 점에 있습니다. GraphRAG가 그래프 모듈러리티를 통한 계층적 요약이라는 기초적 접근법을 확립했다면, LightRAG는 키-값 기반 직접 검색과 증분 업데이트라는 실용적 효율성을 추가하여 실제 운영 환경에서의 확장성을 크게 향상시켰습니다. 향후 연구 방향으로는 더욱 정교한 엔터티 중복 제거 기법, 다국어 지원 확대, 그리고 도메인 특화 엔터티 타입의 자동 학습 등이 고려될 수 있습니다.

LightRAG: 간단하고 빠른 검색 증강 생성

서론

검색 증강 생성(Retrieval-Augmented Generation, RAG) 시스템은 대규모 언어 모델(LLM)이 외부 지식 소스를 활용하여 보다 정확하고 맥락에 적합한 응답을 생성할 수 있도록 하는 기술입니다. Sudhi et al. (2024), Es et al. (2024), Salemi & Zamani (2024) 등의 연구에서 제시되었듯이, RAG 시스템은 특정 도메인 지식에 적응하고 최신 정보에 접근할 수 있게 함으로써 LLM의 실질적 활용도를 크게 향상시킵니다. 이 과정에서 청킹(chunking)은 대규모 외부 텍스트 코퍼스를 더 작고 관리 가능한 단위로 분할하여 검색 정확도를 높이는 핵심적인 역할을 수행합니다.

그러나 기존 RAG 시스템에는 성능을 저해하는 두 가지 근본적인 한계가 존재합니다. 첫째, 많은 방법들이 평면적 데이터 표현(flat data representations)에 의존하고 있어 엔터티 간의 복잡한 관계를 기반으로 정보를 이해하고 검색하는 능력이 제한됩니다. 둘째, 다양한 엔터티와 그 상호 관계에 걸쳐 일관성을 유지하는 데 필요한 맥락 인식(contextual awareness) 능력이 부족하여, 사용자의 질의에 완전히 대응하지 못하는 응답이 생성될 수 있습니다.

예를 들어, 사용자가 "전기차의 부상이 도시 대기질과 대중교통 인프라에 어떤 영향을 미치는가?"라고 질문한다고 가정해 보겠습니다. 기존 RAG 방법은 전기차, 대기 오염, 대중교통 과제에 관한 개별 문서를 각각 검색할 수는 있지만, 이 정보들을 하나의 응집력 있는 응답으로 종합하는 데 어려움을 겪습니다. 전기차 도입이 대기질을 개선하고, 그것이 다시 대중교통 계획에 어떻게 영향을 미칠 수 있는지를 설명하지 못할 수 있습니다. 그 결과 사용자는 이러한 주제들 간의 복잡한 상호 의존성을 제대로 포착하지 못하는 단편적인 답변을 받게 됩니다.

이러한 한계를 극복하기 위해 본 논문에서는 텍스트 인덱싱과 정보 검색 과정에 그래프 구조를 통합하는 접근법을 제안합니다. Rampasek et al. (2022)의 연구에서 강조되었듯이, 그래프는 서로 다른 엔터티 간의 상호 의존성을 표현하는 데 특히 효과적이며, 이를 통해 관계에 대한 보다 세밀한 이해를 가능하게 합니다. 그래프 기반 지식 구조의 통합은 여러 소스로부터의 정보를 일관되고 맥락적으로 풍부한 응답으로 종합하는 것을 촉진합니다.

이 연구에서는 효과적이고 효율적인 RAG 시스템을 구현하기 위해 세 가지 핵심 과제를 다룹니다. 첫 번째는 포괄적 정보 검색(Comprehensive Information Retrieval)으로, 모든 문서에서 상호 의존적 엔터티의 전체 맥락을 포착하는 것입니다. 두 번째는 검색 효율성 향상(Enhanced Retrieval Efficiency)으로, 그래프 기반 지식 구조 위에서의 검색 효율을 개선하여 응답 시간을 크게 단축하는 것입니다. 세 번째는 새로운 데이터에 대한 빠른 적응(Rapid Adaptation to New Data)으로, 동적 환경에서 시스템의 적시성을 유지하기 위해 데이터 업데이트에 신속하게 대응하는 것입니다.

이러한 과제에 대응하여 제안된 LightRAG는 그래프 기반 텍스트 인덱싱 패러다임과 이중 수준 검색 프레임워크(dual-level retrieval framework)를 통합한 모델입니다. 이중 수준 검색 전략에서 저수준 검색(low-level retrieval)은 특정 엔터티와 그 관계에 대한 정밀한 정보에 초점을 맞추고, 고수준 검색(high-level retrieval)은 더 넓은 주제와 테마를 포괄합니다. 세부적인 검색과 개념적인 검색을 결합함으로써 다양한 유형의 질의에 효과적으로 대응할 수 있습니다. 또한 그래프 구조와 벡터 표현의 통합을 통해 관련 엔터티와 관계의 효율적 검색을 가능하게 하며, 전체 인덱스를 재구축할 필요 없이 증분 업데이트 알고리즘(incremental update algorithm)을 통해 새로운 데이터를 적시에 통합할 수 있습니다.

본 논문의 핵심 기여는 세 가지 측면으로 요약됩니다. 일반적 관점(General Aspect)에서는 기존 방법의 한계를 극복하기 위한 그래프 강화 RAG 시스템 개발의 중요성을 강조하며, 그래프 구조를 텍스트 인덱싱에 통합하여 엔터티 간의 복잡한 상호 의존성을 효과적으로 표현할 수 있음을 보입니다. 방법론적 측면(Methodologies)에서는 이중 수준 검색 패러다임과 그래프 강화 텍스트 인덱싱을 통합한 LightRAG를 제안하며, 증분 업데이트 알고리즘을 통해 계산 비용을 절감하고 동적 환경에서의 적응 속도를 높입니다. 실험적 발견(Experimental Findings) 측면에서는 검색 정확도, 모델 어블레이션, 응답 효율성, 새로운 정보에 대한 적응성 등 여러 핵심 차원에서 기존 RAG 모델 대비 유의미한 개선을 입증합니다.

검색 증강 생성(Retrieval-Augmented Generation)

RAG 프레임워크의 형식적 정의

검색 증강 생성(RAG)은 사용자의 질의(query)를 외부 지식 데이터베이스에서 가져온 관련 문서들과 결합하여 응답을 생성하는 시스템입니다. 이 프레임워크는 크게 두 가지 핵심 구성 요소로 이루어져 있습니다. 첫째는 검색 구성 요소(Retrieval Component)로, 외부 지식 데이터베이스에서 입력 질의와 관련된 문서나 정보를 찾아오는 역할을 수행합니다. 둘째는 생성 구성 요소(Generation Component)로, 검색된 정보를 바탕으로 언어 모델의 능력을 활용하여 일관성 있고 맥락적으로 적절한 응답을 생성합니다.

이를 직관적으로 이해하기 위해 도서관의 사서를 떠올려 볼 수 있습니다. 누군가 질문을 하면, 사서는 먼저 관련 서적을 찾아오고(검색), 그 내용을 종합하여 질문에 대한 답변을 정리합니다(생성). RAG 시스템도 이와 동일한 원리로 작동합니다.

본 논문에서는 이러한 RAG 프레임워크 $\mathcal{N}$을 다음과 같이 형식적으로 정의합니다.

\[\mathcal{N} = \left(\mathcal{G},\ \mathcal{R} = (\varphi, \psi)\right), \quad \mathcal{N}(q; \mathcal{D}) = \mathcal{G}\left(q, \psi(q; \hat{\mathcal{D}})\right), \quad \hat{\mathcal{D}} = \varphi(\mathcal{D})\]

이 수식에서 각 기호의 의미는 다음과 같습니다. $\mathcal{G}$는 생성 모듈(Generation Module)을 나타내며, 검색된 정보를 바탕으로 최종 응답을 생성하는 언어 모델에 해당합니다. $\mathcal{R}$은 검색 모듈(Retrieval Module)로, 두 가지 하위 기능으로 구성됩니다. $q$는 입력 질의를 나타내고, $\mathcal{D}$는 외부 데이터베이스를 의미합니다.

검색 모듈 $\mathcal{R}$을 구성하는 두 가지 핵심 기능을 자세히 살펴보면, 데이터 인덱서(Data Indexer) $\varphi(\cdot)$는 외부 데이터베이스 $\mathcal{D}$를 기반으로 특정한 데이터 구조 $\hat{\mathcal{D}}$를 구축하는 역할을 합니다. 이는 마치 도서관의 책들을 주제별, 저자별로 분류하여 카탈로그를 만드는 과정에 비유할 수 있습니다. 원본 데이터를 그대로 사용하는 것이 아니라, 검색에 최적화된 형태로 사전에 가공해 두는 것입니다. 데이터 리트리버(Data Retriever) $\psi(\cdot)$는 질의 $q$를 인덱싱된 데이터 $\hat{\mathcal{D}}$와 비교하여 관련 문서를 찾아오는 역할을 수행합니다. 이렇게 검색된 문서들은 "관련 문서(relevant documents)"라고 불립니다.

전체 과정을 수식의 흐름에 따라 추적해 보면, 먼저 $\varphi(\mathcal{D})$를 통해 외부 데이터베이스가 인덱싱되어 $\hat{\mathcal{D}}$가 생성됩니다. 그 다음 사용자의 질의 $q$가 들어오면, $\psi(q; \hat{\mathcal{D}})$를 통해 관련 문서가 검색됩니다. 마지막으로 생성 모델 $\mathcal{G}$가 원래의 질의 $q$와 검색된 문서를 함께 입력받아 최종 응답을 생성합니다. 이 과정에서 핵심적인 점은 생성 모델이 질의만으로 답변하는 것이 아니라, 검색된 외부 정보를 함께 참고한다는 것입니다.

이 형식적 정의는 기존 RAG 서베이 연구들에서 널리 채택되고 있는 수학적 구조를 따르고 있으며, 리트리버를 $\mathcal{R} = (\varphi, \psi)$로 분해하여 인덱싱 함수와 검색 함수를 명시적으로 구분하는 방식은 시스템의 각 구성 요소를 독립적으로 분석하고 개선할 수 있는 기반을 제공합니다.

이러한 일반적인 RAG 프레임워크를 기반으로, 본 논문에서 제안하는 LightRAG의 전체 아키텍처가 제시됩니다. 이 아키텍처에서는 그래프 기반 텍스트 인덱싱, 이중 수준 검색, 그리고 응답 생성이라는 핵심 파이프라인이 유기적으로 결합되어 있습니다.

효과적인 RAG 시스템을 위한 핵심 요구사항

앞서 서론에서 간략히 언급된 세 가지 핵심 과제가 이 섹션에서 RAG 프레임워크의 수학적 구조와 연결되어 보다 구체적으로 정의됩니다.

첫 번째 요구사항인 포괄적 정보 검색(Comprehensive Information Retrieval)은 인덱싱 함수 $\varphi(\cdot)$가 전역적 정보(global information)를 효과적으로 추출할 수 있어야 한다는 것입니다. 여기서 '전역적 정보'란 개별 문서 조각에 국한되지 않고, 전체 문서 컬렉션에 걸쳐 엔터티 간의 관계와 맥락을 포괄하는 정보를 의미합니다. 예를 들어 BM25와 같은 전통적 키워드 기반 검색은 개별 문서 단위에서 용어 빈도를 계산하므로, 여러 문서에 분산된 정보를 종합하기 어렵습니다. 반면 LightRAG에서 제안하는 그래프 기반 인덱싱은 엔터티와 관계를 그래프 구조로 표현함으로써 이러한 전역적 맥락을 자연스럽게 포착할 수 있습니다.

두 번째 요구사항인 효율적이고 저비용 검색(Efficient and Low-Cost Retrieval)은 인덱싱된 데이터 구조 $\hat{\mathcal{D}}$가 빠르고 비용 효율적인 검색을 가능하게 해야 한다는 것입니다. 대량의 질의를 효과적으로 처리하기 위해서는, 검색 과정에서 소모되는 토큰 수와 API 호출 횟수가 최소화되어야 합니다. 이는 실제 운영 환경에서 시스템의 확장성과 직접적으로 연관되는 실질적 과제입니다.

세 번째 요구사항인 데이터 변화에 대한 빠른 적응(Fast Adaptation to Data Changes)은 외부 지식 베이스에서 새로운 정보가 유입될 때, 데이터 구조 $\hat{\mathcal{D}}$를 신속하고 효율적으로 업데이트할 수 있어야 한다는 것입니다. 끊임없이 변화하는 정보 환경에서 시스템의 시의성과 적합성을 유지하기 위해, 전체 인덱스를 재구축하지 않고도 점진적으로 새로운 정보를 통합할 수 있는 능력이 필수적입니다.

이 세 가지 요구사항은 서로 긴밀히 연결되어 있으면서도 때로는 상충 관계에 놓일 수 있습니다. 예를 들어 포괄적 정보 검색을 위해 복잡한 인덱스 구조를 구축하면 검색 비용이 증가할 수 있고, 빠른 적응을 위해 인덱스를 단순하게 유지하면 포괄성이 저하될 수 있습니다. LightRAG는 이후 섹션에서 소개되는 그래프 기반 텍스트 인덱싱과 이중 수준 검색 패러다임을 통해 이 세 가지 요구사항을 동시에 충족하는 것을 목표로 합니다.

LightRAG 아키텍처

그래프 기반 텍스트 인덱싱

그래프 강화 엔터티 및 관계 추출 파이프라인

LightRAG의 핵심 인덱싱 전략은 원본 문서를 더 작고 관리 가능한 조각(chunk)으로 분할하는 데서 시작합니다. 이 전략의 근본적인 아이디어는 전체 문서를 분석하지 않고도 관련 정보를 신속하게 식별하고 접근할 수 있도록 하는 것입니다. 이후 LLM을 활용하여 이름, 날짜, 장소, 사건 등 다양한 엔터티(entity)와 이들 사이의 관계(relationship)를 식별하고 추출합니다. 이렇게 수집된 정보는 전체 문서 컬렉션에 걸친 연결과 통찰을 부각하는 포괄적 지식 그래프(knowledge graph)로 구성됩니다.

이 과정을 직관적으로 이해하기 위해 비유를 들어 보면, 이는 마치 거대한 백과사전에서 핵심 인물, 장소, 사건을 모두 추출한 뒤, 이들 사이의 관계를 거미줄처럼 연결하는 지도를 만드는 것과 유사합니다. 개별 문서를 하나씩 읽는 대신, 이 지도를 통해 어떤 정보가 어디에 있고 어떻게 연결되어 있는지를 한눈에 파악할 수 있게 됩니다.

이 그래프 생성 모듈은 다음과 같이 형식적으로 표현됩니다.

\[\tilde{D} = (\tilde{V}, \tilde{\varepsilon}) = \text{Dedupe} \circ \text{Prof}(V, \xi), \quad V, \xi = \bigcup_{D_i \in D} \text{Recog}(D_i)\]

이 수식에서 $\tilde{D}$는 최종적으로 생성되는 지식 그래프를 나타내며, $\tilde{V}$는 중복이 제거된 엔터티 노드 집합, $\tilde{\varepsilon}$는 중복이 제거된 관계 엣지 집합입니다. $D_i$는 원본 텍스트 문서의 개별 청크를 의미합니다. 수식의 오른쪽에서 왼쪽으로 읽으면, 먼저 모든 문서 청크 $D_i$에 대해 $\text{Recog}(\cdot)$ 함수를 적용하여 엔터티 $V$와 관계 $\xi$를 추출한 후, 이를 합집합($\cup$)으로 결합합니다. 그런 다음 $\text{Prof}(\cdot)$ 함수로 키-값 쌍을 생성하고, 마지막으로 $\text{Dedupe}(\cdot)$ 함수로 중복을 제거합니다. $\circ$ 기호는 함수 합성(function composition)을 의미하므로, $\text{Dedupe} \circ \text{Prof}$는 프로파일링을 먼저 수행한 후 중복 제거를 적용하는 것을 나타냅니다.

이 파이프라인은 Graph RAG에서 제안된 엔터티-관계 추출 아키텍처를 기반으로 하되, 명시적인 프로파일링 함수와 중복 제거 함수를 추가하여 검색 효율성을 크게 향상시킨 것입니다. Edge et al.의 Graph RAG에서는 Leiden 알고리즘을 통한 커뮤니티 탐지와 맵-리듀스 방식의 질의 응답에 의존했지만, LightRAG에서는 키-값 구조 기반의 직접적 검색을 통해 이 과정을 대체합니다.

세 가지 핵심 처리 함수의 상세 분석

그래프 기반 텍스트 인덱싱 패러다임에서 사용되는 세 가지 함수를 자세히 살펴보겠습니다.

첫 번째 함수인 엔터티 및 관계 추출 함수 $\text{Recog}(\cdot)$는 LLM에 프롬프트를 전달하여 텍스트 데이터 내의 엔터티(노드)와 그 관계(엣지)를 식별하는 역할을 수행합니다. 예를 들어, "Cardiologists assess symptoms to identify potential heart issues"라는 텍스트가 주어지면, 이 함수는 "Cardiologists"와 "Heart Disease"라는 엔터티를 추출하고, "Cardiologists diagnose Heart Disease"라는 관계를 식별합니다. 효율성을 높이기 위해 원본 텍스트 $D$는 여러 청크 $D_i$로 분할된 후 각각에 대해 이 함수가 적용됩니다.

실제 구현에서 이 청크 분할이 어떻게 이루어지는지 코드를 통해 확인할 수 있습니다. LightRAG의 설정 파일에서 청크 관련 기본 설정을 살펴보면 다음과 같습니다.

# lightrag/lightrag.py에서 발췌
@dataclass
class LightRAG:
    # 문서 분할 시 각 청크의 최대 토큰 수 설정
    chunk_token_size: int = field(default=int(os.getenv("CHUNK_SIZE", 1200)))
    
    # 엔터티 추출을 위한 최대 입력 토큰 수
    max_extract_input_tokens: int = field(
        default=get_env_value("MAX_EXTRACT_INPUT_TOKENS", 20480, int)
    )
    
    # 모호한 컨텐츠에 대한 추가 추출 시도 횟수 (gleaning)
    entity_extract_max_gleaning: int = field(
        default=get_env_value("MAX_GLEANING", 1, int)
    )

여기서 주목할 점은 entity_extract_max_gleaning 파라미터입니다. 이는 Graph RAG에서 도입된 "gleaning" 기법을 LightRAG에서도 활용하는 것으로, 한 번의 추출로 놓칠 수 있는 엔터티를 추가 반복을 통해 복원하는 전략입니다. Edge et al.의 연구에서는 600 토큰 청크가 2400 토큰 청크에 비해 약 2배 많은 엔터티 참조를 추출한다는 것을 발견했는데, LightRAG는 기본 청크 크기로 1200 토큰을 채택하여 추출 정밀도와 문맥 보존 사이의 균형을 잡고 있습니다.

또한 추출되는 엔터티의 유형은 다음과 같이 11가지로 분류됩니다.

# lightrag/constants.py에서 발췌
DEFAULT_ENTITY_TYPES = [
    "Person", "Creature", "Organization", "Location", "Event",
    "Concept", "Method", "Content", "Data", "Artifact", "NaturalObject",
]

이러한 세분화된 엔터티 타이핑은 지식 그래프의 의미적 풍부함을 높이고, 이후 검색 단계에서 유형별 필터링을 가능하게 합니다.

두 번째 함수인 LLM 프로파일링 함수 $\text{Prof}(\cdot)$는 각 엔터티 노드($V$)와 관계 엣지($E$)에 대해 텍스트 키-값 쌍 $(K, V)$를 생성합니다. 여기서 인덱스 키(key)는 효율적 검색을 가능하게 하는 단어나 짧은 구문이고, 대응하는 값(value)은 텍스트 생성을 지원하기 위해 외부 데이터에서 관련 스니펫을 요약한 텍스트 단락입니다. 이 설계에서 중요한 차이점은 엔터티와 관계의 키 생성 방식이 다르다는 것입니다. 엔터티는 이름 자체를 유일한 인덱스 키로 사용하는 반면, 관계는 LLM의 강화를 통해 연결된 엔터티들의 전역적 테마(global themes)를 포함하는 다중 인덱스 키를 가질 수 있습니다.

이 프로파일링 함수의 설계가 왜 중요한지를 이해하려면, Gao et al.의 RAG 서베이에서 지적한 문제점을 고려해야 합니다. 기존 Naive RAG의 핵심 한계 중 하나는 검색된 청크들이 서로 단절되어 중복되거나 비일관적인 출력을 생성하는 것이었습니다. LightRAG의 프로파일링 함수는 엔터티와 관계에 대한 요약된 값(value)을 생성함으로써, 원본 텍스트에 직접 의존하지 않고도 핵심 정보에 근거한(grounded) 맥락을 제공할 수 있습니다. 이는 해당 서베이에서 권고한 "인덱스 구조 최적화"와 "메타데이터 추가" 전략을 구체적으로 구현한 것입니다.

실제로 지식 그래프가 어떤 구조로 저장되는지 커스텀 KG 삽입 코드를 통해 확인할 수 있습니다.

# examples/insert_custom_kg.py에서 발췌
custom_kg = {
    "entities": [
        {
            "entity_name": "CompanyA",        # 엔터티 이름 = 인덱스 키(K)
            "entity_type": "Organization",     # 엔터티 유형
            "description": "A major technology company",  # 값(V)의 일부
            "source_id": "Source1",            # 원본 추적을 위한 소스 ID
        },
        # ... 추가 엔터티들
    ],
    "relationships": [
        {
            "src_id": "CompanyA",
            "tgt_id": "ProductX",
            "description": "CompanyA develops ProductX",  # 관계 설명
            "keywords": "develop, produce",     # 다중 인덱스 키
            "weight": 1.0,                      # 관계 강도
            "source_id": "Source1",
        },
        # ... 추가 관계들
    ],
}
rag.insert_custom_kg(custom_kg)

이 코드에서 관계(relationship)의 keywords 필드가 바로 논문에서 설명하는 "LLM 강화를 통한 다중 인덱스 키"에 해당합니다. 엔터티는 entity_name 하나만을 키로 사용하지만, 관계는 "develop, produce"처럼 여러 키워드를 통해 접근할 수 있어 검색의 유연성이 높아집니다.

세 번째 함수인 중복 제거 함수 $\text{Dedupe}(\cdot)$는 서로 다른 텍스트 청크 $D_i$에서 추출된 동일한 엔터티와 관계를 식별하고 병합하는 역할을 수행합니다. 이 과정은 지식 그래프 $\tilde{D}$의 크기를 최소화하여 그래프 연산의 오버헤드를 효과적으로 줄이고, 보다 효율적인 데이터 처리를 가능하게 합니다. Graph RAG에서는 그래프 연결성을 통해 암묵적으로 엔터티 이름 변이를 처리했던 반면, LightRAG는 이를 $\text{Dedupe}(\cdot)$라는 명시적 함수로 공식화하여 체계적인 중복 제거를 수행합니다.

데이터베이스 수준에서 이 중복 제거가 어떻게 처리되는지 PostgreSQL 구현의 upsert 패턴을 통해 확인할 수 있습니다.

-- lightrag/kg/postgres_impl.py에서 발췌한 upsert 패턴
INSERT INTO LIGHTRAG_VDB_ENTITY (id, workspace, entity_name, content, content_vector)
VALUES ($1, $2, $3, $4, $5)
ON CONFLICT (workspace, id) DO UPDATE
SET entity_name = EXCLUDED.entity_name,
    content = EXCLUDED.content,
    update_time = CURRENT_TIMESTAMP;

ON CONFLICT ... DO UPDATE 구문은 동일한 엔터티가 이미 존재할 경우 새로운 정보로 갱신하는 upsert 전략을 구현합니다. 이는 논문에서 설명하는 중복 제거 함수 $\text{Dedupe}(\cdot)$의 실질적 구현체입니다.

그래프 기반 텍스트 인덱싱의 두 가지 장점

LightRAG의 그래프 기반 텍스트 인덱싱 패러다임은 두 가지 핵심적 장점을 제공합니다. 첫째는 포괄적 정보 이해(Comprehensive Information Understanding)입니다. 구축된 그래프 구조는 다중 홉 서브그래프(multi-hop subgraph)로부터 전역적 정보를 추출할 수 있게 하여, 여러 문서 청크에 걸치는 복잡한 질의를 처리하는 LightRAG의 능력을 크게 향상시킵니다. 앞서 서론에서 예시로 든 전기차-대기질-대중교통 인프라의 연결 질의가 바로 이러한 다중 홉 추론이 필요한 전형적인 사례입니다.

둘째는 향상된 검색 성능(Enhanced Retrieval Performance)입니다. 그래프에서 파생된 키-값 데이터 구조는 빠르고 정밀한 검색에 최적화되어 있습니다. 이는 Gao et al.의 연구에서 논의된 부정확한 임베딩 매칭 방법이나, Edge et al.의 Graph RAG에서 사용되는 비효율적인 청크 순회 기법에 비해 우수한 대안을 제공합니다. 구체적으로 Graph RAG는 커뮤니티 요약을 셔플하고 청크한 뒤 맵-리듀스 방식으로 질의에 응답하는데, 이 과정에서 수십만 개의 토큰과 수백 번의 API 호출이 필요합니다. 반면 LightRAG의 키-값 구조는 벡터 데이터베이스를 통한 직접적 매칭을 가능하게 하여 검색 비용을 극적으로 절감합니다.

증분 지식 베이스에 대한 빠른 적응

진화하는 데이터 변화에 효율적으로 적응하면서 정확하고 적합한 응답을 보장하기 위해, LightRAG는 전체 외부 데이터베이스를 완전히 재처리할 필요 없이 지식 베이스를 증분적으로 업데이트합니다. 새로운 문서 $D'$가 유입되면, 앞서 설명한 동일한 그래프 기반 인덱싱 단계를 거쳐 $D' = (V', E')$가 생성됩니다. 이후 LightRAG는 노드 집합의 합집합 $V \cup V'$와 엣지 집합의 합집합 $E \cup E'$를 취하여 새 그래프 데이터를 기존 그래프와 결합합니다.

이 증분 업데이트 알고리즘은 두 가지 핵심 목표를 달성합니다. 첫째, 새 데이터의 원활한 통합(Seamless Integration of New Data)으로, 새로운 정보에 일관된 방법론을 적용함으로써 기존 그래프 구조를 방해하지 않고 새로운 외부 데이터베이스를 통합할 수 있습니다. 이 접근법은 기존 연결의 무결성을 보존하여 역사적 데이터가 접근 가능한 상태를 유지하면서도 충돌이나 중복 없이 그래프를 풍부하게 합니다. 둘째, 계산 오버헤드 절감(Reducing Computational Overhead)으로, 전체 인덱스 그래프를 재구축할 필요를 제거하여 새로운 데이터의 신속한 동화를 촉진합니다.

이는 Graph RAG와의 근본적 차이점을 잘 보여줍니다. Edge et al.의 Graph RAG에서는 증분 업데이트가 명시적으로 다루어지지 않았으며, 새 문서가 추가될 경우 커뮤니티 탐지와 커뮤니티 요약을 전체적으로 재수행해야 합니다. 이는 논문의 실험 결과에서 확인되듯이 약 $1{,}399 \times 2 \times 5{,}000$ 토큰에 해당하는 막대한 비용을 발생시킵니다. 반면 LightRAG의 합집합 기반 증분 업데이트는 새 문서의 엔터티/관계 추출 비용만 발생하므로, 동적 환경에서의 확장성이 월등히 우수합니다.

실제 코드에서 이 다중 저장소 아키텍처가 어떻게 구성되는지 살펴보면, 엔터티와 관계 각각에 대한 독립적인 벡터 데이터베이스 테이블이 존재하여 새로운 데이터를 기존 구조에 자연스럽게 삽입할 수 있는 기반이 마련되어 있습니다. PostgreSQL 스키마에서 LIGHTRAG_VDB_ENTITY와 LIGHTRAG_VDB_RELATION 테이블이 각각 엔터티 벡터와 관계 벡터를 독립적으로 관리하며, 이들의 content_vector 필드가 의미적 유사도 검색을 위한 밀집 벡터 임베딩을 저장합니다. 이러한 구조 덕분에 새로운 엔터티와 관계를 기존 테이블에 단순히 추가(insert)하는 것만으로도 합집합 연산이 자연스럽게 구현됩니다.

앞서 정의한 RAG 프레임워크의 형식적 정의와 연결하면, 그래프 기반 텍스트 인덱싱은 데이터 인덱서 $\varphi(\cdot)$의 구체적 구현에 해당합니다. 즉, $\hat{\mathcal{D}} = \varphi(\mathcal{D})$에서 $\hat{\mathcal{D}}$는 바로 지식 그래프 $\tilde{D} = (\tilde{V}, \tilde{\varepsilon})$와 이에 연관된 키-값 쌍들의 집합으로 실체화됩니다. 이는 이전에 논의한 세 가지 핵심 요구사항 중 포괄적 정보 검색(다중 홉 서브그래프를 통한 전역 정보 추출)과 데이터 변화에 대한 빠른 적응(합집합 기반 증분 업데이트)을 직접적으로 충족하는 설계입니다.

이중 수준 검색 패러다임

앞서 소개한 그래프 기반 텍스트 인덱싱을 통해 지식 그래프와 키-값 쌍이 구축되면, 다음 단계는 사용자의 질의에 맞는 정보를 이 구조에서 효율적으로 검색하는 것입니다. LightRAG는 질의의 성격이 근본적으로 두 가지 유형으로 나뉜다는 관찰에 기반하여 이중 수준 검색 패러다임을 설계합니다.

첫 번째 유형인 구체적 질의(Specific Queries)는 지식 그래프 내의 특정 엔터티를 직접적으로 참조하며 정밀한 사실 정보를 요구합니다. "누가 '오만과 편견'을 썼는가?"와 같은 질문이 이에 해당합니다. 두 번째 유형인 추상적 질의(Abstract Queries)는 특정 엔터티에 국한되지 않고 더 넓은 개념적 주제나 테마를 포괄합니다. "인공지능이 현대 교육에 어떤 영향을 미치는가?"가 그 예시입니다.

이 두 유형의 질의에 효과적으로 대응하기 위해, LightRAG는 저수준 검색(Low-Level Retrieval)과 고수준 검색(High-Level Retrieval)이라는 상호 보완적인 전략을 제공합니다. 저수준 검색은 그래프 내 개별 노드와 엣지에 초점을 맞추어 특정 엔터티의 속성이나 직접적 관계를 정밀하게 추출하는 반면, 고수준 검색은 여러 관련 엔터티와 관계에 걸친 정보를 종합하여 상위 수준의 개념과 요약을 제공합니다. 이를 비유하자면, 저수준 검색은 도서관에서 특정 책의 특정 페이지를 찾는 것이고, 고수준 검색은 특정 주제에 관한 여러 책의 핵심 논지를 종합하여 전체적인 흐름을 파악하는 것에 해당합니다.

그래프와 벡터의 통합을 통한 3단계 검색 알고리즘

이중 수준 검색의 실질적 작동 메커니즘은 그래프 구조와 벡터 표현을 결합하는 세 단계의 알고리즘으로 구현됩니다. 이 통합을 통해 엔터티 간의 구조적 상호 관계를 깊이 있게 파악하면서도, 벡터 유사도 기반의 효율적 검색을 동시에 활용할 수 있습니다.

1단계: 질의 키워드 추출(Query Keyword Extraction)은 주어진 질의 $q$에 대해 LLM을 활용하여 로컬 질의 키워드 $k^{(l)}$과 글로벌 질의 키워드 $k^{(g)}$를 동시에 추출하는 과정입니다. 로컬 키워드는 질의에 등장하는 구체적 엔터티명이나 세부 사항을 포착하고, 글로벌 키워드는 질의가 다루는 상위 수준의 개념이나 테마를 포착합니다. 예를 들어 "머신러닝에서 영화 추천 시스템을 평가하는 데 가장 유용한 지표는 무엇인가?"라는 질의에서, 로컬 키워드로는 "영화 추천 시스템", "평가 지표" 등이 추출되고, 글로벌 키워드로는 "머신러닝 평가 방법론", "추천 시스템 성능 측정" 등이 추출됩니다.

이 키워드 추출 과정은 LLM에 특별히 설계된 프롬프트를 전달하여 수행되며, 결과는 JSON 형식으로 "high_level_keywords"와 "low_level_keywords" 두 개의 키로 반환됩니다.

2단계: 키워드 매칭(Keyword Matching)에서는 효율적인 벡터 데이터베이스를 활용하여 추출된 키워드와 인덱싱된 지식 그래프 요소 간의 매칭을 수행합니다. 핵심적인 설계 원리는 로컬 키워드 $k^{(l)}$은 엔터티 벡터 저장소와 매칭되고, 글로벌 키워드 $k^{(g)}$는 관계 벡터 저장소의 글로벌 키와 매칭된다는 것입니다. 앞서 설명한 프로파일링 함수에서 엔터티는 이름 자체를 인덱스 키로, 관계는 전역적 테마를 포함하는 다중 인덱스 키를 갖도록 설계되었기 때문에, 이 두 수준의 매칭이 자연스럽게 이루어집니다. 독립적인 벡터 저장소가 엔터티 임베딩과 관계 임베딩을 각각 관리하므로, 두 유형의 키워드를 병렬적으로 검색할 수 있습니다.

3단계: 고차 관련성 통합(Incorporating High-Order Relatedness)은 검색된 그래프 요소의 국소적 서브그래프 내에서 이웃 노드를 추가적으로 수집하여 질의의 맥락을 풍부하게 합니다. 이 과정은 다음과 같은 집합으로 형식화됩니다.

\[\{v_i \mid v_i \in V \land (v_i \in N_v \lor v_i \in N_e)\}\]

이 수식에서 $N_v$는 검색된 노드 $v$의 1-홉 이웃 노드 집합을, $N_e$는 검색된 엣지 $e$의 1-홉 이웃 노드 집합을 나타냅니다. 원문의 조판 과정에서 일부 기호가 불명확하게 렌더링되어 있어, 표준 집합론 표기로 정정하여 표기하면 위와 같습니다. 이 수식의 의미를 직관적으로 설명하면, 전체 그래프 $V$에서 노드 $v_i$를 선택하되, 해당 노드가 검색된 노드의 이웃이거나($v_i \in N_v$) 검색된 엣지의 이웃($v_i \in N_e$)인 경우에 해당 노드를 결과 집합에 포함시킨다는 것입니다.

이 고차 관련성 통합이 왜 중요한지를 구체적 예시로 살펴보겠습니다. "심장병 진단 방법"에 대한 질의가 있을 때, 2단계에서 "심장병"이라는 엔터티가 직접 검색되었다고 가정합니다. 3단계에서는 이 노드의 1-홉 이웃인 "심장 전문의", "심전도 검사", "관상동맥 조영술" 등의 엔터티가 추가로 수집됩니다. 또한 검색된 "심장 전문의가 심장병을 진단한다"라는 엣지의 이웃 노드들도 함께 수집됩니다. 이를 통해 단순한 키워드 매칭만으로는 놓칠 수 있는 관련 맥락 정보가 풍부하게 보강되는 것입니다.

다음 코드는 이 3단계 검색 알고리즘의 핵심 로직을 파이썬으로 구현한 것입니다.

import json
from typing import Dict, List, Set, Tuple

# 1단계: 질의 키워드 추출
def extract_query_keywords(query: str, llm) -> Dict[str, List[str]]:
    """
    LLM을 활용하여 질의에서 저수준 및 고수준 키워드를 추출합니다.
    Returns: {"high_level_keywords": [...], "low_level_keywords": [...]}
    """
    prompt = f"""Given the following query, identify both high-level and low-level keywords.
    High-level keywords: overarching concepts or themes.
    Low-level keywords: specific entities, details, or concrete terms.
    Query: {query}
    Return JSON with keys "high_level_keywords" and "low_level_keywords"."""
    response = llm(prompt)
    return json.loads(response)

# 2단계: 벡터 데이터베이스를 활용한 키워드 매칭
def keyword_matching(
    keywords: Dict[str, List[str]],
    entity_vdb,      # 엔터티 전용 벡터 저장소
    relation_vdb,    # 관계 전용 벡터 저장소
    top_k: int = 5
) -> Tuple[List, List]:
    """
    로컬 키워드 k^(l)은 엔터티 벡터 DB와,
    글로벌 키워드 k^(g)는 관계 벡터 DB와 매칭합니다.
    """
    local_kw = keywords["low_level_keywords"]
    global_kw = keywords["high_level_keywords"]
    
    # 저수준 검색: 엔터티 노드 v 매칭
    matched_entities = entity_vdb.search(local_kw, top_k=top_k)
    # 고수준 검색: 관계 엣지 e의 글로벌 키 매칭
    matched_relations = relation_vdb.search(global_kw, top_k=top_k)
    return matched_entities, matched_relations

# 3단계: 1-홉 이웃 수집을 통한 고차 관련성 통합
def incorporate_high_order(
    entities: List,
    relations: List,
    graph
) -> Set:
    """
    집합: {v_i | v_i ∈ V ∧ (v_i ∈ N_v ∨ v_i ∈ N_e)}
    검색된 엔터티와 관계의 1-홉 이웃을 수집합니다.
    """
    neighbor_nodes = set()
    for entity in entities:
        # N_v: 검색된 노드의 1-홉 이웃
        neighbor_nodes.update(graph.one_hop_neighbors(entity))
    for relation in relations:
        # N_e: 검색된 엣지의 1-홉 이웃
        neighbor_nodes.update(graph.one_hop_neighbors(relation))
    return neighbor_nodes

이 코드에서 주목할 점은 keyword_matching 함수에서 엔터티와 관계에 대한 벡터 검색이 독립적으로 수행된다는 것입니다. 이는 저수준과 고수준 검색 경로가 물리적으로 분리되어 있으면서도, incorporate_high_order 함수에서 두 경로의 결과가 통합되는 설계를 반영합니다.

실제 운용에서는 저수준 검색만 수행하는 모드, 고수준 검색만 수행하는 모드, 그리고 두 검색을 모두 결합하는 하이브리드 모드가 제공됩니다. 하이브리드 모드에서는 엔터티와 관계 모두에 대한 검색이 동시에 이루어져 세부적 정밀성과 개념적 포괄성을 동시에 확보할 수 있습니다.

이 이중 수준 검색 패러다임은 키워드 매칭을 통한 관련 엔터티 및 관계의 효율적 검색을 촉진할 뿐만 아니라, 구축된 지식 그래프의 구조적 정보를 통합함으로써 검색 결과의 포괄성을 크게 향상시킵니다.

검색 증강 응답 생성

이중 수준 검색을 통해 관련 정보가 수집되면, 마지막 단계는 이 정보를 바탕으로 실제 응답을 생성하는 것입니다. LightRAG는 검색된 정보를 범용 LLM에 전달하여 응답을 생성합니다.

여기서 핵심적인 점은 LLM에 전달되는 컨텍스트의 구성입니다. 검색된 정보는 관련 엔터티와 관계로부터 수집된 값(value)들의 연결(concatenation)로 구성되며, 이는 앞서 설명한 프로파일링 함수 $P(\cdot)$가 생성한 것입니다. 구체적으로 이 데이터에는 세 가지 요소가 포함됩니다. 첫째는 엔터티와 관계의 이름(names)이고, 둘째는 엔터티와 관계에 대한 설명(descriptions)이며, 셋째는 원본 텍스트에서 발췌한 관련 구절(excerpts)입니다.

앞서 정의한 RAG 프레임워크의 수학적 구조와 연결하면, 이중 수준 검색 과정 전체가 추상적 검색 연산 $\psi(q; \hat{\mathcal{D}})$의 구체적 실체화에 해당합니다. 원문에서 사용되는 $\phi(q; D)$ 표기는 이 실체화된 검색 결과물, 즉 LightRAG의 이중 수준 검색이 산출하는 엔터티·관계 값들의 집합을 지칭합니다. 생성 모델 $\mathcal{G}$는 사용자의 원래 질의 $q$와 이 다중 소스 텍스트를 통합하여, 질의의 의도에 부합하는 정보가 풍부한 답변을 생성합니다. 이 접근법은 맥락과 질의를 LLM에 함께 통합함으로써 응답 생성 과정을 간소화합니다. 구체적인 검색-생성 파이프라인의 전체 사례는 부록의 사례 연구에서 확인할 수 있습니다.

LightRAG 프레임워크의 복잡도 분석

LightRAG 프레임워크의 계산 복잡도는 그래프 기반 인덱스 단계와 그래프 기반 검색 단계라는 두 가지 주요 부분으로 나누어 분석할 수 있습니다. 이 분석은 LightRAG가 앞서 소개한 세 가지 핵심 요구사항, 특히 효율적이고 저비용인 검색과 데이터 변화에 대한 빠른 적응을 어떻게 달성하는지를 복잡도 관점에서 뒷받침합니다.

그래프 기반 인덱스 단계의 복잡도

인덱스 단계에서는 앞서 설명한 엔터티 및 관계 추출 파이프라인이 실행됩니다. 이 과정에서 LLM은 각 텍스트 청크로부터 엔터티와 관계를 추출하기 위해 호출되며, 필요한 LLM 호출 횟수는 다음과 같이 결정됩니다.

\[\text{LLM 호출 횟수} = \frac{\text{총 토큰 수}}{\text{청크 크기}}\]

이 수식은 직관적으로 이해할 수 있습니다. 전체 문서 코퍼스의 토큰 수가 정해져 있고, 각 청크의 크기가 고정되어 있다면, 처리해야 하는 청크의 수는 단순히 전체 토큰 수를 청크 크기로 나눈 값이 됩니다. 각 청크에 대해 LLM을 한 번 호출하므로, 호출 횟수는 청크의 수와 동일합니다.

이 설계에서 특히 중요한 점은 새로운 텍스트가 추가될 때 추가적인 오버헤드가 발생하지 않는다는 것입니다. 앞서 소개된 증분 업데이트 방식에서 새 문서가 유입되면 해당 문서의 청크들에 대해서만 동일한 추출 과정을 수행하고, 그 결과를 기존 그래프에 합집합 연산으로 병합하면 됩니다. 기존 인덱스를 재구축하거나 전체 그래프를 재처리할 필요가 없으므로, 업데이트 비용은 오직 새로 추가된 텍스트의 양에만 비례합니다. 이는 동적 환경에서 시스템의 확장성을 확보하는 데 핵심적인 특성입니다.

그래프 기반 검색 단계의 복잡도

검색 단계에서는 각 질의에 대해 먼저 LLM을 활용하여 관련 키워드를 생성합니다. 이후의 검색 메커니즘은 Gao et al. (2023; 2022), Chan et al. (2024) 등이 제시한 기존 RAG 시스템과 유사하게 벡터 기반 검색(vector-based search)에 의존합니다. 그러나 기존 RAG가 텍스트 청크를 검색 대상으로 삼는 것과 달리, LightRAG는 엔터티와 관계를 검색 대상으로 집중합니다.

이 차이가 복잡도에 미치는 영향을 이해하려면, 검색 대상의 성격을 비교해 볼 필요가 있습니다. 기존 RAG에서 검색 대상인 텍스트 청크는 원본 문서를 일정 크기로 분할한 것이므로, 문서 양에 비례하여 검색 공간이 증가합니다. 반면 LightRAG에서 검색 대상인 엔터티와 관계는 앞서 설명한 프로파일링 및 중복 제거 과정을 거쳐 정제된 지식 단위이므로, 원본 텍스트의 양보다 훨씬 압축된 검색 공간을 형성합니다.

더 중요한 것은 GraphRAG에서 사용하는 커뮤니티 기반 순회(community-based traversal) 방식과의 비교입니다. GraphRAG는 그래프에서 커뮤니티를 탐지하고 그 요약을 순회하면서 질의에 응답하는 맵-리듀스 방식을 채택하는데, 이 과정은 커뮤니티 수와 요약의 크기에 따라 상당한 검색 오버헤드를 수반합니다. LightRAG는 벡터 데이터베이스를 통한 직접적 유사도 매칭으로 이 과정을 대체하므로, 검색 오버헤드가 현저하게 감소합니다. 이후의 비용 분석 실험에서 이러한 효율성 차이가 구체적인 수치로 확인됩니다.

종합하면, LightRAG는 인덱스 단계에서 총 토큰 수와 청크 크기의 비율에 비례하는 LLM 호출만을 요구하며 업데이트 시 추가 비용이 없고, 검색 단계에서는 청크 대신 엔터티와 관계에 대한 벡터 검색을 수행하여 커뮤니티 순회 방식 대비 오버헤드를 크게 절감합니다. 이 두 가지 특성이 결합되어 LightRAG가 효율적이면서도 포괄적인 검색 증강 생성을 실현할 수 있는 기반을 제공합니다.

실험 평가

이 연구에서는 제안된 LightRAG 프레임워크의 효과성을 검증하기 위해 벤치마크 데이터를 활용한 체계적인 실험 평가를 수행합니다. 평가는 네 가지 연구 질문을 중심으로 구성됩니다. RQ1은 기존 RAG 베이스라인과의 생성 성능 비교, RQ2는 이중 수준 검색과 그래프 기반 인덱싱의 기여도 분석, RQ3은 구체적 사례를 통한 LightRAG의 장점 확인, 그리고 RQ4는 비용 및 데이터 변화 적응성 분석에 해당합니다.

실험 설정

평가 데이터셋

실험에는 UltraDomain 벤치마크(Qian et al., 2024)에서 선정된 네 가지 데이터셋이 사용됩니다. UltraDomain은 428개의 대학 교재에서 수집되었으며 농업, 사회과학, 인문학 등 18개 도메인을 포괄하는 대규모 데이터셋입니다. 이 중에서 Agriculture, CS, Legal, Mix 네 가지가 선택되었으며, 각 데이터셋은 600,000에서 5,000,000 토큰 규모입니다.

Agriculture 도메인은 양봉, 벌통 관리, 작물 생산, 질병 예방 등 농업 실무를 다루며, CS 도메인은 데이터 과학과 소프트웨어 공학의 핵심 영역으로 추천 시스템, 분류 알고리즘, Spark 기반 실시간 분석 등을 포함합니다. Legal 도메인은 기업 구조조정, 법적 협약, 규제 준수, 거버넌스 등 기업 법률 실무에 초점을 맞추고, Mix 도메인은 문학, 전기, 철학 등 문화적·역사적·철학적 분야를 아우르는 다양한 텍스트로 구성됩니다. 특히 Legal 데이터셋은 약 500만 토큰으로 가장 큰 규모이며, Mix 데이터셋은 약 62만 토큰으로 가장 작은 규모입니다. 이처럼 데이터셋 규모와 도메인 특성이 다양하게 설정되어 있어 LightRAG의 범용성을 다각적으로 검증할 수 있습니다.

질문 생성 및 평가 방법론

고수준 의미 파악(high-level sensemaking) 과제에 대한 RAG 시스템의 효과를 평가하기 위해, Edge et al. (2024)에서 제안된 질문 생성 방법론이 채택됩니다. 구체적으로, 각 데이터셋의 전체 텍스트를 컨텍스트로 사용하여 LLM이 5명의 가상 RAG 사용자를 생성하고, 각 사용자에 대해 5개의 과제를 부여하며, 각 사용자-과제 조합당 5개의 질문을 생성합니다. 각 사용자에게는 전문성과 특성을 설명하는 텍스트 프로필이 부여되고, 각 과제는 RAG 시스템과 상호작용할 때의 잠재적 의도를 강조합니다. 이 과정을 통해 데이터셋당 총 125개의 질문이 생성되며, 이 질문들은 전체 코퍼스에 대한 이해를 요구하는 고수준 질의의 특성을 갖습니다.

평가에서는 복잡한 고수준 의미를 포함하는 RAG 질의에 대해 정답(ground truth)을 정의하는 것이 본질적으로 어렵다는 점을 고려하여, LLM 기반 다차원 비교 방법이 채택됩니다. GPT-4o-mini가 평가자 역할을 수행하여 각 베이스라인과 LightRAG의 응답을 직접 비교합니다. 평가는 네 가지 차원에서 이루어지는데, Comprehensiveness(포괄성)는 답변이 질문의 모든 측면과 세부 사항을 얼마나 철저히 다루는지를, Diversity(다양성)는 답변이 질문과 관련된 다양한 관점과 통찰을 얼마나 풍부하게 제공하는지를, Empowerment(역량 강화)는 답변이 독자의 주제 이해와 판단 형성을 얼마나 효과적으로 지원하는지를 측정합니다. Overall(종합)은 앞선 세 차원의 누적 성능을 종합하여 최상의 답변을 판별합니다. LLM은 세 차원에서 각각 우수한 답변을 선정한 후, 이 결과를 결합하여 종합적으로 우수한 답변을 결정합니다. 평가의 공정성을 위해 프롬프트 내 답변의 배치 순서를 교대로 변경하여 순서 편향을 완화하고, 승률(win rate)을 산출합니다.

베이스라인 방법

LightRAG는 네 가지 최신 방법과 비교됩니다. Naive RAG(Gao et al., 2023)는 기존 RAG 시스템의 표준 베이스라인으로, 원본 텍스트를 청크로 분할하고 텍스트 임베딩을 사용하여 벡터 데이터베이스에 저장한 뒤, 표현 간 최고 유사도를 기반으로 텍스트 청크를 직접 검색합니다. RQ-RAG(Chan et al., 2024)는 LLM을 활용하여 입력 질의를 다수의 하위 질의로 분해하며, 재작성(rewriting), 분해(decomposition), 모호성 해소(disambiguation) 등의 기법을 통해 검색 정확도를 향상시킵니다. HyDE(Gao et al., 2022)는 LLM을 활용하여 입력 질의를 기반으로 가상 문서(hypothetical document)를 생성하고, 이 가상 문서를 사용하여 관련 텍스트 청크를 검색합니다. GraphRAG(Edge et al., 2024)는 그래프 강화 RAG 시스템으로, LLM을 활용하여 텍스트에서 엔터티와 관계를 추출하고 이를 노드와 엣지로 표현하며, 노드를 커뮤니티로 집계하여 커뮤니티 보고서를 생성함으로써 전역적 정보를 포착합니다.

모든 실험에서 LLM 기반 연산에는 GPT-4o-mini가 기본적으로 사용되며, 청크 크기는 전 데이터셋에 걸쳐 1,200으로 설정됩니다. GraphRAG와 LightRAG 모두에서 gleaning 파라미터는 1로 고정됩니다.

기존 RAG 방법과의 비교

Table 1은 네 가지 데이터셋과 네 가지 평가 차원에 걸친 베이스라인 대비 LightRAG의 승률을 보여줍니다.

베이스라인	차원	Agriculture	CS	Legal	Mix
Naive RAG	Comprehensiveness	32.4% vs 67.6%	38.4% vs 61.6%	16.4% vs 83.6%	38.8% vs 61.2%
	Diversity	23.6% vs 76.4%	38.0% vs 62.0%	13.6% vs 86.4%	32.4% vs 67.6%
	Empowerment	32.4% vs 67.6%	38.8% vs 61.2%	16.4% vs 83.6%	42.8% vs 57.2%
	Overall	32.4% vs 67.6%	38.8% vs 61.2%	15.2% vs 84.8%	40.0% vs 60.0%
RQ-RAG	Comprehensiveness	31.6% vs 68.4%	38.8% vs 61.2%	15.2% vs 84.8%	39.2% vs 60.8%
	Diversity	29.2% vs 70.8%	39.2% vs 60.8%	11.6% vs 88.4%	30.8% vs 69.2%
	Empowerment	31.6% vs 68.4%	36.4% vs 63.6%	15.2% vs 84.8%	42.4% vs 57.6%
	Overall	32.4% vs 67.6%	38.0% vs 62.0%	14.4% vs 85.6%	40.0% vs 60.0%
HyDE	Comprehensiveness	26.0% vs 74.0%	41.6% vs 58.4%	26.8% vs 73.2%	40.4% vs 59.6%
	Diversity	24.0% vs 76.0%	38.8% vs 61.2%	20.0% vs 80.0%	32.4% vs 67.6%
	Empowerment	25.2% vs 74.8%	40.8% vs 59.2%	26.0% vs 74.0%	46.0% vs 54.0%
	Overall	24.8% vs 75.2%	41.6% vs 58.4%	26.4% vs 73.6%	42.4% vs 57.6%
GraphRAG	Comprehensiveness	45.6% vs 54.4%	48.4% vs 51.6%	48.4% vs 51.6%	50.4% vs 49.6%
	Diversity	22.8% vs 77.2%	40.8% vs 59.2%	26.4% vs 73.6%	36.0% vs 64.0%
	Empowerment	41.2% vs 58.8%	45.2% vs 54.8%	43.6% vs 56.4%	50.8% vs 49.2%
	Overall	45.2% vs 54.8%	48.0% vs 52.0%	47.2% vs 52.8%	50.4% vs 49.6%

이 결과에서 도출되는 핵심 발견은 세 가지입니다.

첫째, 대규모 코퍼스에서 그래프 강화 RAG 시스템의 우월성이 명확하게 드러납니다. 높은 토큰 수와 데이터셋 맥락에 대한 심층적 이해를 요구하는 복잡한 질의를 처리할 때, LightRAG와 GraphRAG 같은 그래프 기반 RAG 시스템은 Naive RAG, HyDE, RQ-RAG 등 순수 청크 기반 검색 방법을 일관되게 능가합니다. 이 성능 격차는 데이터셋 규모가 커질수록 더욱 두드러지는데, 가장 큰 Legal 데이터셋에서 베이스라인 방법들의 승률이 약 15~27% 수준에 머무르는 반면 LightRAG는 73~88%의 승률을 기록합니다. 이는 그래프 구조가 대규모 코퍼스 내의 복잡한 의미적 의존성을 포착하는 데 본질적으로 유리함을 실증적으로 보여줍니다.

둘째, LightRAG는 Diversity 지표에서 특히 현저한 우위를 보입니다. 이 우위는 이중 수준 검색 패러다임에 기인하는 것으로 분석됩니다. 저수준 검색이 특정 엔터티와 그 직접적 관계에 대한 세밀한 정보를 제공하고, 고수준 검색이 더 넓은 주제와 테마를 포괄하는 정보를 수집함으로써, 두 수준의 결합이 응답의 관점적 다양성을 자연스럽게 확보합니다. Legal 데이터셋에서 Naive RAG 대비 86.4%, RQ-RAG 대비 88.4%의 Diversity 승률은 이러한 메커니즘의 효과를 가장 극적으로 보여주는 수치입니다.

셋째, 동일한 그래프 기반 검색을 활용하는 GraphRAG와의 비교에서도 LightRAG는 일관된 우위를 확보합니다. Agriculture, CS, Legal 데이터셋에서 LightRAG가 Overall 기준으로 각각 54.8%, 52.0%, 52.8%의 승률을 기록하며, 특히 Diversity 차원에서의 격차가 두드러집니다(Agriculture에서 77.2% vs 22.8%). 다만 Mix 데이터셋에서는 Comprehensiveness(49.6%), Empowerment(49.2%), Overall(49.6%)에서 GraphRAG가 근소하게 앞서는 결과가 나타나는데, 이는 상대적으로 작은 데이터셋(약 62만 토큰)에서는 두 그래프 기반 접근법 간의 차이가 줄어듦을 시사합니다.

어블레이션 연구

이중 수준 검색 패러다임의 각 구성 요소와 그래프 기반 텍스트 인덱싱의 기여도를 정량적으로 분석하기 위해 어블레이션 실험이 수행됩니다. Table 2는 NaiveRAG를 참조 기준으로 하여 LightRAG의 다양한 변형 모델들의 성능을 보여줍니다.

변형	차원	Agriculture	CS	Legal	Mix
NaiveRAG vs LightRAG	Comprehensiveness	32.4% vs 67.6%	38.4% vs 61.6%	16.4% vs 83.6%	38.8% vs 61.2%
	Diversity	23.6% vs 76.4%	38.0% vs 62.0%	13.6% vs 86.4%	32.4% vs 67.6%
	Empowerment	32.4% vs 67.6%	38.8% vs 61.2%	16.4% vs 83.6%	42.8% vs 57.2%
	Overall	32.4% vs 67.6%	38.8% vs 61.2%	15.2% vs 84.8%	40.0% vs 60.0%
NaiveRAG vs -High	Comprehensiveness	34.8% vs 65.2%	42.8% vs 57.2%	23.6% vs 76.4%	40.4% vs 59.6%
	Diversity	27.2% vs 72.8%	36.8% vs 63.2%	16.8% vs 83.2%	36.0% vs 64.0%
	Empowerment	36.0% vs 64.0%	42.4% vs 57.6%	22.8% vs 77.2%	47.6% vs 52.4%
	Overall	35.2% vs 64.8%	44.0% vs 56.0%	22.0% vs 78.0%	42.4% vs 57.6%
NaiveRAG vs -Low	Comprehensiveness	36.0% vs 64.0%	43.2% vs 56.8%	19.2% vs 80.8%	36.0% vs 64.0%
	Diversity	28.0% vs 72.0%	39.6% vs 60.4%	13.6% vs 86.4%	33.2% vs 66.8%
	Empowerment	34.8% vs 65.2%	42.8% vs 57.2%	16.4% vs 83.6%	35.2% vs 64.8%
	Overall	34.8% vs 65.2%	43.6% vs 56.4%	18.8% vs 81.2%	35.2% vs 64.8%
NaiveRAG vs -Origin	Comprehensiveness	24.8% vs 75.2%	39.2% vs 60.8%	16.4% vs 83.6%	44.4% vs 55.6%
	Diversity	26.4% vs 73.6%	44.8% vs 55.2%	14.4% vs 85.6%	25.6% vs 74.4%
	Empowerment	32.0% vs 68.0%	43.2% vs 56.8%	17.2% vs 82.8%	45.2% vs 54.8%
	Overall	25.6% vs 74.4%	39.2% vs 60.8%	15.6% vs 84.4%	44.4% vs 55.6%

여기서 변형 모델의 명명 규칙을 이해하는 것이 중요합니다. -High 변형은 고수준 검색을 제거한 것으로, 저수준(엔터티 중심) 검색만 수행합니다. -Low 변형은 저수준 검색을 제거한 것으로, 고수준(관계 중심) 검색만 수행합니다. -Origin 변형은 원본 텍스트를 검색 과정에서 제외하고 그래프 구조에서 파생된 정보만 사용합니다.

이중 수준 검색의 효과

-High 변형(저수준 검색만 사용)의 결과를 살펴보면, 전체 LightRAG 대비 거의 모든 데이터셋과 지표에서 성능 하락이 관찰됩니다. 예를 들어 Legal 데이터셋의 Overall에서 전체 모델이 84.8%를 기록하는 반면 -High 변형은 78.0%에 머무릅니다. 이 하락은 특정 엔터티와 그 직접적 이웃에 과도하게 집중하는 특성 때문으로, 포괄적 통찰을 요구하는 복잡한 질의에 대해 충분한 정보를 수집하지 못하는 한계를 드러냅니다.

-Low 변형(고수준 검색만 사용)은 엔터티 간 관계를 통해 더 넓은 범위의 콘텐츠를 포착하는 데 강점을 보입니다. 흥미롭게도 -Low 변형은 Legal 데이터셋의 Diversity(86.4%)와 Empowerment(83.6%) 차원에서 전체 LightRAG와 동일한 승률을 기록하는데, 이는 해당 데이터셋에서 고수준 검색만으로도 이 차원들에서 충분한 성능을 달성할 수 있음을 시사합니다. 그러나 Comprehensiveness에서는 전체 모델(83.6%) 대비 80.8%로 하락하며, 특히 CS 데이터셋에서는 전체 모델(61.2%) 대비 56.4%로 떨어져 세밀한 엔터티 수준의 정보가 부재할 때의 한계를 보여줍니다.

두 검색 수준을 결합한 전체 LightRAG는 넓은 범위의 관계 탐색과 특정 엔터티에 대한 심층 분석을 동시에 수행하여, 검색의 폭과 분석의 깊이 모두에서 균형 잡힌 성능을 달성합니다.

의미 그래프의 효과

-Origin 변형의 결과는 특히 주목할 만합니다. 검색 과정에서 원본 텍스트를 완전히 제거했음에도 불구하고, 네 가지 데이터셋 전반에 걸쳐 유의미한 성능 하락이 나타나지 않습니다. 오히려 Agriculture 데이터셋에서는 Overall이 74.4%로 전체 모델의 67.6%를 상회하며, Mix 데이터셋에서도 Diversity가 74.4%로 전체 모델의 67.6%를 초과합니다. 이 현상은 그래프 기반 인덱싱 과정에서 핵심 정보가 효과적으로 추출되어 질의 응답에 충분한 맥락을 제공하고 있음을 의미합니다. 나아가 원본 텍스트에 포함된 무관한 정보가 오히려 응답 생성에 노이즈를 도입할 수 있다는 점도 시사합니다.

사례 연구

Table 3은 머신러닝 관련 질의에 대한 GraphRAG와 LightRAG의 실제 응답을 비교하여 보여줍니다. 원본 질의는 "Which methods can normalize the feature values for effective machine learning?"으로, 특성값 정규화 방법에 관한 것입니다. 그런데 두 시스템 모두 영화 추천 시스템의 평가 지표를 주제로 응답을 생성한 점이 흥미롭습니다. 이는 실제 평가에 사용된 코퍼스 맥락에서 두 모델이 검색한 정보가 추천 시스템 평가 지표 관련 내용이었기 때문으로 보입니다.

항목	GraphRAG	LightRAG
다루는 지표	Precision, Recall, F1 Score, MAP, RMSE, User Satisfaction	MAPK, Precision/Recall, RMSE/MSE, AUC, F-Measure, User Engagement
특징	전통적 지표 중심, 체계적 서술	더 넓은 범위의 지표 포함, 지표 간 관계와 차이 설명

LLM 평가자는 네 가지 차원 모두에서 LightRAG의 응답을 우수하다고 판정합니다. Comprehensiveness 차원에서 LightRAG는 MAPK, AUC, User Engagement 지표 등 GraphRAG가 다루지 않은 추가적 평가 지표를 포함하여 더 폭넓은 정보를 제공합니다. Diversity 차원에서는 RMSE와 MSE의 차이, AUC의 세부적 설명 등 지표들 간의 미묘한 차이와 상호 관계를 탐색하는 반면, GraphRAG는 표준 지표의 나열에 그칩니다. Empowerment 차원에서는 각 지표의 작동 원리와 중요성에 대한 맥락을 제공하고, 정밀도와 재현율 사이의 트레이드오프 등을 설명하여 독자의 판단력 형성을 더 효과적으로 지원합니다. 이러한 결과는 그래프 기반 인덱싱의 정밀한 엔터티·관계 추출 능력과, 이중 수준 검색의 심층-광범위 탐색 결합이 실질적 응답 품질 향상으로 이어짐을 구체적으로 보여줍니다.

모델 비용 및 적응성 분석

LightRAG의 실용적 효율성을 검증하기 위해 가장 경쟁력 있는 베이스라인인 GraphRAG와의 비용 비교가 수행됩니다. 비교는 인덱싱 및 검색 과정에서의 토큰 소비량과 API 호출 횟수, 그리고 동적 환경에서 데이터 변화를 처리할 때의 오버헤드라는 두 가지 관점에서 이루어지며, Legal 데이터셋을 기준으로 분석됩니다. 이 데이터셋은 약 500만 토큰의 가장 큰 규모를 가지므로, 비용 차이가 가장 극명하게 드러나는 환경입니다.

다음 표는 검색 단계와 증분 데이터 업데이트 단계에서 두 시스템의 비용을 정리한 것입니다. 여기서 $T_{\text{extract}}$는 엔터티 및 관계 추출에 소요되는 토큰 오버헤드를, $C_{\text{extract}}$는 추출에 필요한 API 호출 횟수를, $C_{\text{max}}$는 API 호출당 허용되는 최대 토큰 수를 나타냅니다.

단계	지표	GraphRAG	LightRAG
검색 단계	토큰	$610 \times 1{,}000$	$< 100$
	API 호출	$610$	$1$
증분 업데이트	토큰	$1{,}399 \times 2 \times 5{,}000 + T_{\text{extract}}$	$T_{\text{extract}}$
	API 호출	$1{,}399 \times 2 + C_{\text{extract}}$	$C_{\text{extract}}$

검색 단계의 비용 격차

검색 단계에서의 비용 차이는 극적입니다. GraphRAG는 Legal 데이터셋에서 1,399개의 커뮤니티를 생성하며, 이 중 610개의 레벨 2 커뮤니티가 실제 검색에 활용됩니다. 각 커뮤니티 보고서의 평균 길이가 약 1,000 토큰이므로, 단일 질의를 처리하기 위해 $610 \times 1{,}000 = 610{,}000$ 토큰이 소비됩니다. 또한 GraphRAG는 각 커뮤니티를 개별적으로 순회해야 하므로 수백 번의 API 호출이 필요하며, 이는 검색 오버헤드를 크게 증가시킵니다.

반면 LightRAG는 키워드 생성과 검색을 위해 100 토큰 미만만 소비하며, 전체 과정에 단 1회의 API 호출만 필요합니다. 이는 토큰 소비 기준으로 약 6,000배 이상의 효율성 차이에 해당합니다. 이러한 극적인 차이는 LightRAG의 검색 메커니즘이 그래프 구조와 벡터 표현을 원활하게 통합하여 대량의 정보를 사전에 처리할 필요 없이 직접적으로 관련 정보에 접근하기 때문입니다.

이 효율성의 근본적 원인을 이해하기 위해 두 시스템의 검색 방식을 대조적으로 살펴보면, GraphRAG는 질의에 응답하기 위해 모든 관련 커뮤니티 보고서를 순차적으로 읽고 이를 맵-리듀스 방식으로 종합해야 합니다. 이는 마치 도서관의 모든 책꽂이를 하나씩 방문하며 관련 내용을 찾는 것과 유사합니다. 반면 LightRAG는 벡터 데이터베이스를 통한 유사도 기반 직접 검색을 수행하므로, 도서관 카탈로그 시스템에서 필요한 정보의 위치를 즉시 파악하는 것에 비유할 수 있습니다.

증분 데이터 업데이트의 효율성

동적 환경에서의 데이터 변화 대응 능력은 실용적 RAG 시스템에서 매우 중요한 요소입니다. 엔터티 및 관계 추출 자체의 오버헤드($T_{\text{extract}}$와 $C_{\text{extract}}$)는 두 시스템에서 유사한 수준을 보입니다. 그러나 새로운 데이터가 추가된 이후의 처리 과정에서 근본적인 차이가 발생합니다.

Legal 데이터셋과 동일한 규모의 새로운 데이터가 유입되는 시나리오를 가정하면, GraphRAG는 기존 커뮤니티 구조를 해체하고 새로운 엔터티와 관계를 통합한 후, 전체 커뮤니티 보고서를 재생성해야 합니다. 기존 1,399개의 커뮤니티와 새로 형성된 커뮤니티 모두에 대해 보고서를 작성해야 하므로, 커뮤니티당 약 5,000 토큰의 비용을 고려하면 총 $1{,}399 \times 2 \times 5{,}000 \approx 13{,}990{,}000$ 토큰이라는 막대한 비용이 발생합니다. 이는 추출 비용을 제외하고도 약 1,400만 토큰에 달하는 재구축 비용입니다.

이에 비해 LightRAG는 새로 추출된 엔터티와 관계를 기존 그래프에 원활하게 통합합니다. 이전 섹션에서 소개한 합집합 기반 증분 업데이트 방식 덕분에 전체 구조의 재구축이 불필요하므로, 오직 새 데이터에 대한 추출 비용($T_{\text{extract}}$)만 발생합니다. 이는 증분 업데이트에서의 추가 오버헤드가 사실상 제로에 가깝다는 것을 의미하며, 지속적으로 데이터가 갱신되는 실제 운용 환경에서 LightRAG의 확장성과 비용 효율성이 압도적으로 우수함을 실증적으로 확인해 줍니다.

이러한 비용 분석은 원본 논문의 Figure 2에서도 시각적으로 비교되어 있으며, 검색 단계와 증분 업데이트 단계 모두에서 LightRAG가 GraphRAG 대비 현저하게 적은 토큰과 API 호출을 소비한다는 결과를 명확히 보여줍니다. 종합하면, LightRAG는 응답 품질에서의 우위와 함께 운용 비용과 동적 적응성 측면에서도 실질적 이점을 제공하는 프레임워크임이 확인됩니다.

결론

본 논문은 검색 증강 생성(RAG) 분야에서 그래프 기반 인덱싱 접근법의 통합을 통해 정보 검색의 효율성과 이해도를 동시에 향상시키는 LightRAG 프레임워크를 제안합니다. 앞서 상세히 분석한 바와 같이, LightRAG는 포괄적 지식 그래프를 활용하여 신속하고 관련성 높은 문서 검색을 촉진하며, 복잡한 질의에 대한 깊이 있는 이해를 가능하게 합니다.

LightRAG의 핵심 기여는 세 가지 축으로 요약됩니다. 첫째, 이중 수준 검색 패러다임은 구체적 엔터티 정보와 추상적 주제 정보를 모두 추출할 수 있도록 설계되어, 다양한 사용자 요구에 유연하게 대응합니다. 앞서 어블레이션 연구에서 확인되었듯이, 저수준과 고수준 검색의 결합은 어느 한쪽만 사용하는 것에 비해 검색의 폭과 깊이 모두에서 균형 잡힌 성능을 달성합니다. 둘째, 원활한 증분 업데이트 기능은 전체 인덱스를 재구축하지 않고도 새로운 정보를 기존 그래프에 통합할 수 있게 하여, 동적 환경에서 시스템의 시의성과 적응성을 보장합니다. 비용 분석에서 확인되었듯이, 이는 GraphRAG 대비 증분 업데이트 시 추가 오버헤드를 사실상 제로 수준으로 줄이는 실질적 이점을 제공합니다. 셋째, 그래프 구조와 벡터 표현의 통합을 통한 검색 메커니즘은 단일 질의당 100 토큰 미만과 1회의 API 호출만으로 관련 정보에 접근할 수 있어, LLM 추론 비용을 극적으로 절감합니다.

종합적으로 LightRAG는 정보 검색 및 생성의 속도와 품질 모두에서 유의미한 개선을 달성하면서도 운용 비용을 크게 줄이는 프레임워크임이 실험적으로 입증되었습니다. Edge et al.의 Graph RAG가 그래프 모듈러리티를 통한 계층적 요약이라는 기초적 접근법을 확립했다면, LightRAG는 키-값 기반 직접 검색과 증분 업데이트라는 실용적 효율성을 추가하여 대규모 동적 환경에서의 RAG 시스템 운용 가능성을 한 단계 끌어올린 것으로 평가할 수 있습니다. Gao et al.의 RAG 서베이에서 제시된 모듈형 RAG 패러다임의 관점에서 보면, LightRAG는 그래프 기반 인덱싱, 이중 수준 검색, 증분 업데이트라는 세 가지 모듈을 유기적으로 결합하여 차세대 RAG 시스템의 구체적 실현 가능성을 보여주는 의미 있는 진전입니다.

부록

이 부록에서는 LightRAG 프레임워크의 실험 설정과 방법론에 대한 상세한 보충 정보를 제공합니다. 앞서 본문에서 개괄적으로 설명된 데이터셋의 통계적 세부사항, 실제 검색-생성 파이프라인의 동작 사례, LLM 연산에 사용되는 프롬프트 템플릿, 그리고 추가 사례 연구를 포함합니다.

실험 데이터 상세

앞서 평가 섹션에서 네 가지 데이터셋의 도메인 특성과 대략적인 토큰 규모를 소개한 바 있습니다. 아래 표는 각 데이터셋의 문서 수와 정확한 총 토큰 수를 정리한 것입니다.

통계	Agriculture	CS	Legal	Mix
문서 수	12	10	94	61
총 토큰 수	2,017,886	2,306,535	5,081,069	619,009

이 표에서 주목할 만한 점은 문서 수와 총 토큰 수 사이의 관계입니다. Agriculture 데이터셋은 12개 문서에 약 200만 토큰을, CS 데이터셋은 10개 문서에 약 230만 토큰을 포함하고 있어, 개별 문서당 평균 토큰 수가 상당히 높습니다. 이는 대학 교재 수준의 긴 전문 문서들로 구성되어 있기 때문입니다. 반면 Legal 데이터셋은 94개 문서에 약 508만 토큰으로 가장 큰 규모를 갖추고 있으며, Mix 데이터셋은 61개 문서에 약 62만 토큰으로 상대적으로 짧은 문서들로 이루어져 있습니다. Legal 데이터셋의 대규모 특성은 앞서 비용 분석에서 GraphRAG와의 비교가 이 데이터셋을 기준으로 수행된 이유를 잘 설명해 줍니다.

LightRAG의 검색 증강 생성 사례

LightRAG의 실제 검색-생성 파이프라인이 어떻게 작동하는지를 구체적인 사례를 통해 살펴볼 수 있습니다. "What metrics are most informative for evaluating movie recommendation systems?"(영화 추천 시스템 평가에 가장 유용한 지표는 무엇인가?)라는 질의가 주어지면, LLM은 먼저 이 질의에서 저수준 키워드와 고수준 키워드를 동시에 추출합니다. 이 키워드들은 앞서 본문에서 설명한 이중 수준 검색 프로세스를 안내하여, 생성된 지식 그래프에서 관련 엔터티와 관계를 대상으로 검색을 수행합니다.

검색된 정보는 세 가지 구성 요소로 체계적으로 정리됩니다. 첫째, 엔터티(Entities)로서 "Performance Metrics", "Precision-Recall (PR) Curve", "Movie Clustering", "Accuracy" 등 질의와 관련된 핵심 개념들이 추출됩니다. 각 엔터티에는 "Performance Metrics are measures used to evaluate how well the Decision Tree model performs, including RMSLE among others"와 같이 그래프 인덱싱 과정에서 생성된 설명이 함께 포함됩니다.

둘째, 관계(Relationships)로서 엔터티 간의 연결 정보가 제공됩니다. 예를 들어 "ItemMatrix holds the factors for movies, used to derive recommendations for each user based on their preferences"처럼 ItemMatrix와 Movies 사이의 관계, 또는 "avgPrecisionK function is utilized within the Spark framework to analyze the precision of recommendations"처럼 특정 함수와 프레임워크 사이의 관계가 검색됩니다. "ActualMovies are compared against predictedMovies to assess the accuracy of the movie recommendation model"이라는 관계는 추천 정확도 평가의 핵심 메커니즘을 직접적으로 포착합니다.

셋째, 소스(Sources)로서 원본 텍스트에서 발췌한 관련 구절이 포함됩니다. "These movie IDs are sorted in order of the estimated rating"이나 "we will sum each of these APK scores using a reduce action and divide by the number of users"와 같은 구절들이 이에 해당합니다.

이렇게 구조화된 데이터가 LLM에 컨텍스트로 전달되면, LLM은 MAPK(Mean Average Precision at K), Precision and Recall, RMSE/MSE, AUC, F-Measure, User Engagement Metrics 등을 포괄하는 종합적인 답변을 생성합니다. 이 사례는 LightRAG의 그래프 기반 검색이 단순한 텍스트 청크 검색과 달리, 엔터티와 관계라는 구조화된 지식 단위를 활용하여 질의에 대한 다각적이고 체계적인 정보를 수집할 수 있음을 보여줍니다.

LightRAG에서 사용되는 프롬프트 개요

LightRAG 프레임워크에서는 네 가지 핵심 프롬프트 템플릿이 사용됩니다. 각 프롬프트는 그래프 생성, 질문 생성, 키워드 추출, RAG 평가라는 서로 다른 목적을 위해 설계되어 있으며, 시스템의 전체 파이프라인을 구성하는 핵심 요소입니다.

그래프 생성 프롬프트

그래프 생성 프롬프트는 텍스트 문서로부터 엔터티-관계 정보를 추출하고 구조화하는 데 사용됩니다. 이 프롬프트는 앞서 본문에서 형식적으로 정의한 $\text{Recog}(\cdot)$ 함수의 실질적 구현체에 해당하며, LLM에게 4단계의 체계적인 추출 절차를 지시합니다.

1단계에서는 텍스트에서 모든 엔터티를 식별합니다. 각 엔터티에 대해 대문자화된 엔터티 이름(entity_name), 지정된 유형 중 하나인 엔터티 유형(entity_type, 예: organization, person, geo, event), 그리고 엔터티의 속성과 활동에 대한 포괄적 설명(entity_description)을 추출합니다. 추출된 각 엔터티는 다음과 같은 형식으로 구조화됩니다.

("entity" <|> <entity_name> <|> <entity_type> <|> <entity_description>)

2단계에서는 1단계에서 식별된 엔터티들 중에서 명확하게 관련된 모든 쌍(source_entity, target_entity)을 식별합니다. 각 관계에 대해 출발 엔터티(source_entity), 도착 엔터티(target_entity), 관계 설명(relationship_description), 관계 강도를 나타내는 수치 점수(relationship_strength), 그리고 관계의 포괄적 성격을 요약하는 고수준 키워드(relationship_keywords)를 추출합니다. 관계의 출력 형식은 다음과 같습니다.

("relationship" <|> <source_entity> <|> <target_entity> <|> <relationship_description> <|> <relationship_strength> <|> <relationship_keywords>)

여기서 relationship_keywords는 특정 세부사항이 아닌 개념이나 테마에 초점을 맞추도록 설계되어 있다는 점이 중요합니다. 이는 앞서 본문에서 설명한 프로파일링 함수 $\text{Prof}(\cdot)$에서 관계에 대한 다중 인덱스 키가 전역적 테마를 포함하도록 설계된 것과 직접적으로 연결됩니다.

3단계에서는 전체 텍스트의 주요 개념, 테마, 주제를 요약하는 고수준 키워드를 식별합니다. 이 콘텐츠 수준 키워드는 다음과 같은 형식으로 출력됩니다.

("content_keywords" <|> <high_level_keywords>)

4단계에서는 1단계와 2단계에서 식별된 모든 엔터티와 관계를 하나의 리스트로 반환하되, ##을 리스트 구분자로 사용합니다. 추출이 완료되면 <|COMPLETE|> 신호를 출력하여 작업 종료를 알립니다.

이 프롬프트에서 주목할 설계적 특징은, 엔터티 유형이 프롬프트 실행 시 {entity_types} 변수를 통해 동적으로 지정된다는 것입니다. 입력 텍스트 역시 {input_text} 변수로 전달됩니다. 이러한 변수 기반 설계는 다양한 도메인과 문서 유형에 대해 동일한 프롬프트 구조를 재사용할 수 있게 합니다.

질문 생성 프롬프트

질문 생성 프롬프트는 실험 평가에 사용되는 테스트 질문들을 체계적으로 생성하기 위해 설계된 것입니다. 이 프롬프트는 데이터셋의 전체 설명({total_description})을 입력으로 받아, 해당 데이터셋과 상호작용할 5명의 잠재적 사용자(예: 데이터 과학자, 금융 분석가, 제품 관리자 등)를 식별하도록 LLM에 지시합니다. 각 사용자에 대해 5개의 과제가 정의되고, 각 (사용자, 과제) 조합에 대해 전체 데이터셋에 대한 고수준 이해를 요구하는 5개의 질문이 생성됩니다. 결과적으로 데이터셋당 $5 \times 5 \times 5 = 125$개의 질문이 산출되며, 이는 앞서 본문의 실험 설정에서 언급된 데이터셋당 125개 질문의 생성 근거에 해당합니다.

이 프롬프트의 구조적 특징은 계층적 조직 방식에 있습니다. 사용자별로 고유한 설명(user description)이 부여되고, 각 과제별로도 구체적인 설명(task description)이 제공되며, 질문은 단순한 사실 확인이 아니라 "a high-level understanding of the entire dataset"을 요구하도록 명시되어 있습니다. 이러한 설계는 RAG 시스템이 개별 문서 수준의 단편적 검색이 아닌, 전체 코퍼스에 걸친 종합적 이해 능력을 평가받도록 보장합니다. 관찰할 만한 점은, GraphRAG 논문에서도 유사하게 5명의 사용자 페르소나, 5개의 과제, 5개의 질문을 사용하여 코퍼스당 총 125개의 테스트 질문을 생성하는 방식을 채택했다는 것입니다.

키워드 추출 프롬프트

키워드 추출 프롬프트는 본문에서 설명한 이중 수준 검색 패러다임의 1단계, 즉 질의 키워드 추출을 실행하는 데 사용됩니다. 이 프롬프트는 사용자의 질의로부터 고수준 키워드(high-level keywords)와 저수준 키워드(low-level keywords)를 동시에 식별하는 것을 목표로 합니다. 고수준 키워드는 포괄적인 개념이나 테마에 초점을 맞추고, 저수준 키워드는 특정 엔터티, 세부 사항, 또는 구체적인 용어에 초점을 맞춥니다. 추출된 키워드는 JSON 형식으로 반환되며, "high_level_keywords"와 "low_level_keywords"라는 두 개의 키를 포함합니다.

이 프롬프트에서 특히 주목할 점은 세 가지 퓨 샷 예시(few-shot examples)가 포함되어 있다는 것입니다. 첫 번째 예시에서는 "How does international trade influence global economic stability?"라는 질의에 대해, 고수준 키워드로 "International trade", "Global economic stability", "Economic impact"가, 저수준 키워드로 "Trade agreements", "Tariffs", "Currency exchange", "Imports", "Exports"가 추출됩니다. 두 번째 예시에서는 "What are the environmental consequences of deforestation on biodiversity?"라는 질의가 주어지며, 고수준 키워드로 "Environmental consequences", "Deforestation", "Biodiversity loss"가, 저수준 키워드로 "Species extinction", "Habitat destruction", "Carbon emissions", "Rainforest", "Ecosystem"이 추출됩니다. 세 번째 예시에서는 "What is the role of education in reducing poverty?"라는 질의에 대해, 고수준 키워드로 "Education", "Poverty reduction", "Socioeconomic development"가, 저수준 키워드로 "School access", "Literacy rates", "Job training", "Income inequality"가 추출됩니다.

이 세 가지 예시를 관통하는 일관된 패턴을 살펴보면, 고수준 키워드는 질의의 핵심 주제와 그 상위 개념을 포착하는 반면, 저수준 키워드는 해당 주제와 관련된 구체적인 메커니즘, 도구, 측정 가능한 요소들을 나열한다는 것을 알 수 있습니다. 이러한 퓨 샷 예시의 제공은 LLM이 임의의 질의에 대해서도 일관된 추상화 수준으로 키워드를 분류할 수 있도록 안내하는 역할을 합니다. 실제 실행 시에는 {query} 변수에 사용자의 질의가 삽입되어 처리됩니다.

RAG 평가 프롬프트

RAG 평가 프롬프트는 두 가지 응답을 동일한 질문에 대해 체계적으로 비교하는 프레임워크를 제공합니다. 이 프롬프트의 원문에서 흥미로운 세부사항이 발견되는데, Role 및 Goal 서문에서는 "four criteria"(네 가지 기준)라고 명시하고 있으나, 실제로 나열되는 평가 기준은 Comprehensiveness, Diversity, Empowerment의 세 가지입니다. 이 불일치는 원문 프롬프트 자체에 존재하는 것으로, 실제 평가에서는 세 가지 개별 기준에 대한 평가와 이를 종합한 Overall Winner 판정이라는 네 가지 차원의 판단이 이루어집니다.

각 기준의 정의를 살펴보면, Comprehensiveness(포괄성)는 답변이 질문의 모든 측면과 세부 사항을 다루기 위해 얼마나 많은 정보를 제공하는지를 평가합니다. Diversity(다양성)는 답변이 질문에 대해 다양한 관점과 통찰을 얼마나 풍부하게 제공하는지를 측정합니다. Empowerment(역량 강화)는 답변이 독자가 주제를 이해하고 정보에 기반한 판단을 내리는 데 얼마나 도움이 되는지를 평가합니다.

평가 과정은 LLM에게 {query}, {answer1}, {answer2}라는 세 가지 변수를 전달하여 수행됩니다. LLM은 세 가지 기준 각각에 대해 더 우수한 답변을 선택하고 그 이유를 설명한 후, 세 차원의 결과를 종합하여 전체 승자를 결정합니다. 결과는 JSON 형식으로 구조화되어 출력되며, 각 기준별로 "Winner"와 "Explanation" 필드가 포함되고, 최종적으로 "Overall Winner" 항목에서 종합적인 판정과 그 근거가 제시됩니다. 이러한 JSON 기반 출력 구조는 평가 결과의 명확성과 일관성을 보장하며, 체계적 비교를 용이하게 합니다.

LightRAG와 NaiveRAG의 비교 사례 연구

앞서 본문에서 GraphRAG와의 사례 비교를 살펴본 바 있는데, 부록에서는 NaiveRAG와의 추가적인 사례 비교가 제시됩니다. 이 사례 연구는 "How do indigenous perspectives on ownership and collaboration influence corporate mergers in countries like Canada and Australia?"(원주민의 소유권과 협력에 대한 관점이 캐나다와 호주 같은 국가에서 기업 합병에 어떤 영향을 미치는가?)라는 질의를 다룹니다.

항목	NaiveRAG	LightRAG
응답 구조	단일 서술형 단락	"Cultural Significance of Land Ownership", "The Role of Collaboration", "Legal and Regulatory Frameworks" 등 구조화된 섹션
핵심 내용	커뮤니티 참여, 전통적 토지 사용 존중, 협력적 자원 관리에 대한 일반적 서술	공동 토지 권리, 환경과의 영적 연결, 경쟁보다 협력 우선시 등 세부적 관점 제시
구체성	기업 전략과 결과에 대한 일반적 언급	서구적 소유 개념과 원주민 관점의 대비, 법적·규제적 프레임워크의 구체적 분석

LLM 평가자의 판정 결과를 살펴보면, Comprehensiveness 차원에서 LightRAG가 문화적 의의, 협력, 법적 프레임워크를 포함한 구체적 사례와 상세한 통찰을 통해 원주민 관점을 더 철저히 탐구한다고 평가됩니다. 반면 NaiveRAG는 정보를 제공하기는 하지만 원주민 관점의 다양한 차원을 분석하는 깊이가 부족하다고 지적됩니다. Diversity 차원에서는 LightRAG가 토지 소유의 공동체적 측면, 영적 연결, 협력의 실제 사례 등 더 넓은 범위의 관점을 제시하는 반면, NaiveRAG는 주로 기업 전략과 결과에 제한된 관점만을 제공한다고 평가됩니다. Empowerment 차원에서는 LightRAG가 협력의 중요성과 관련 법적 프레임워크를 강조함으로써 독자에게 실질적이고 행동 가능한 통찰을 제공하며, 포용적 접근이 어떻게 더 나은 결과를 촉진할 수 있는지를 설명한다고 판정됩니다. NaiveRAG는 실용적이지만 도덕적·윤리적 함의를 충분히 강조하지 못한다고 평가됩니다. 최종적으로 Overall Winner는 LightRAG로 결정되며, 포괄적 탐구, 관점의 다양성, 행동 가능한 통찰의 세 가지 측면에서 모두 우수하다는 종합 평가가 내려집니다.

이 사례 연구의 결과는 LightRAG의 이중 수준 검색 프로세스가 NaiveRAG 대비 갖는 근본적 장점을 잘 보여줍니다. LightRAG는 특정 엔터티와 그 상호 관계를 정밀하게 검색하는 동시에, 주제에 내재된 포괄적 테마와 복잡성을 효과적으로 포착하는 광범위한 탐색을 수행함으로써, 단순한 텍스트 청크 기반 검색으로는 달성하기 어려운 깊이와 구조를 갖춘 응답을 생성할 수 있습니다.

References