eternal-studentのブログ

様々な便利なWebツールや知的に面白いコンテンツを共有しています。

生成AI活用の次なる一手:GraphRAG徹底解説 - 導入検討から運用までの完全ガイド

生成AI活用の次なる一手:GraphRAG徹底解説
- 導入検討から運用までの完全ガイド

本記事は、生成AIの業務活用を推進するシステム部門の責任者、AIコンサルタント、そして先進技術に関心を持つ全てのITプロフェッショナルに向けて執筆されています。ベクトル検索ベースの標準的なRAG(検索拡張生成)が直面する本質的な限界を明らかにし、その先にある「GraphRAG」という新たなフロンティアを、技術アーキテクチャから具体的な導入戦略、さらには最新の研究動向まで、網羅的かつ実践的に解説します。

第1章 はじめに:なぜ標準的なRAGの次なるフロンティアが「GraphRAG」なのか

生成AI、特に大規模言語モデル(LLM)のビジネス活用が本格化する中で、多くの企業が直面する課題は、いかにして社内のプライベートデータや専門知識をLLMに安全かつ正確に参照させるかという点です。その解決策として登場したのが「検索拡張生成(Retrieval-Augmented Generation: RAG)」技術です [1]。しかし、現在主流となっているベクトル検索ベースのRAG(以下、標準RAG)には、企業の複雑なナレッジ活用シーンにおいて看過できない、本質的な限界が存在します。本稿では、その限界を乗り越える次世代のアプローチとして注目される「GraphRAG」について、そのアーキテクチャから導入判断の基準、代替技術、そして実装から運用に至るまでの全貌を徹底的に解説します。

1.1 エンタープライズ領域における標準的なベクトル検索RAGの根源的限界

標準RAGの基本的な仕組みは、ドキュメントを「チャンク」と呼ばれる小さなテキスト片に分割し、それぞれの意味内容をベクトル(数値の配列)に変換してベクトルデータベースに格納。ユーザーからの質問が来た際には、その質問文と意味的に類似したチャンクをデータベースから検索し、LLMに渡して回答を生成させるというものです。このアプローチはシンプルかつ強力ですが、企業のナレッジが持つ複雑な文脈を扱う上で、以下の3つの大きな壁に突き当たります。

  1. 分断された情報の接続不能性("Connecting the Dots"問題):ベクトル検索は、あくまで「意味の類似性」に基づいて情報を検索します。そのため、回答の生成に複数の異なる情報源からの知識の統合が必要となる「マルチホップ推論」を要する質問には極めて弱いという性質を持ちます。例えば、「簒奪者アレクトゥスを倒した人物の息子に与えられた名前は?」といった質問では、「アレクトゥスを倒した人物」と「その人物の息子」という二つの情報が、別々のドキュメントやチャンクに記載されている可能性があります。これらのチャンクは質問文全体と直接的な意味的類似性を持たないため、ベクトル検索では適切に両方を引き当てることができません [2, 3]。これは、法務調査における判例と法条の関連付けや、研究開発における異なる論文間の発見の統合など、高度な知識労働において致命的な欠点となります。
  2. 全体俯瞰・要約型クエリへの対応力不足:標準RAGは、「データセット全体における主要なテーマ上位5つは何か?」といった、データ全体を俯瞰し、要約するような質問にもうまく答えられません [4]。なぜなら、このような質問文自体には、回答の根拠となる具体的なチャンクと意味的に類似するキーワードがほとんど含まれていないためです。結果として、LLMはキーワード「テーマ」に引きずられた無関係な情報を検索してしまい、価値の低い回答を生成しがちです。市場調査レポート群からトレンドを抽出したり、全社の議事録から重要決定事項をリストアップしたりといった、戦略的な意思決定に不可欠なタスクを実行できないのです。
  3. 文脈の断片化:RAGの前提となるチャンキング処理は、長いドキュメントをLLMのコンテキストウィンドウに収めるために不可欠ですが、このプロセスが文脈を物理的に断ち切ってしまうというジレンマを抱えています。重要な情報が複数のチャンクにまたがって記述されている場合、検索で一つのチャンクしか取得できなければ、LLMは不完全で誤解を招く可能性のある情報に基づいて回答を生成してしまいます。

1.2 パラダイムシフト:意味的類似性から関係性の理解へ

これらの標準RAGの限界を根本的に解決するのが、ナレッジグラフ(Knowledge Graph: KG)の活用です。ナレッジグラフは、単にテキストを保存するのではなく、情報の中から「エンティティ(ノード)」と呼ばれる実体(例:人物、組織、製品)と、それらの間の「リレーションシップ(エッジ)」と呼ばれる関係性(例:『勤務する』、『所有する』)を抽出し、構造化された知識のネットワークとして表現します。これは、単なる単語やチャンクの「袋」から、概念が相互に結びついた「ウェブ」へと、データの捉え方を根本的に変えるものです。

GraphRAGは、この構造化された知識の地図を活用します。情報を検索する際、単に意味が似ているチャンクを探すのではなく、エンティティ間の関係性をたどる(トラバースする)ことで、真の推論を可能にします [3, 5]。これにより、組織階層、複雑なプロセス、間接的な因果関係といった、ベクトル検索だけでは決して解き明かせない問いに答える力を獲得するのです。

キーポイント: 標準RAGからGraphRAGへの移行は、単なる技術的なアップグレードではありません。それは、AIがデータと対話する方法を、パターンマッチングから初歩的ながらも本質的な「推論」へと進化させるパラダイムシフトです。このことは、開発チームに求められるスキルセットが、エンベディングやチャンキングの最適化から、データモデリングオントロジー設計、グラフ理論の理解へとシフトすることを意味し、プロジェクト計画に大きな影響を与えます。

第2章 GraphRAGの核心:アーキテクチャと動作原理の詳解

GraphRAGの真価を理解するためには、その根幹をなすアーキテクチャと、それがどのようにして標準RAGの限界を克服するのかを深く掘り下げる必要があります。GraphRAGは、非構造化テキストを知的資産へと昇華させる「インデキシング」と、その資産を駆使して高精度な回答を導き出す「クエリ」という、2つの精緻なプロセスから成り立っています。

2.1 基盤となるナレッジグラフ(KG)とは何か

GraphRAGの全ての動作は、ナレッジグラフというデータ構造の上に成り立っています。ナレッジグラフとは、知識を構造化して表現する手法であり、ノード(エンティティ)エッジ(リレーションシップ)、そしてプロパティ(属性)の3つの要素で構成されます。これを単純なリストと比較すると、その違いは明確です。社員名簿は単なる名前のリストですが、組織図は誰が誰の部下で、どの部署に所属しているかという関係性を示すナレッジグラフの一種です。GraphRAGにおける革新的な点は、このナレッジグラフを、専門家が手作業で構築するのではなく、LLMを用いて非構造化テキストから自動的に生成する点にあります。

2.2 インデキシングフェーズ:非構造化テキストから構造化知識モデルへの変換

インデキシングは、GraphRAGにおいて最も複雑かつコストを要するプロセスであり、単なるデータ投入ではなく、多段階のデータ変換パイプラインです。このフェーズは、生のテキストを知的資産へと変える錬金術とも言えるでしょう。

  1. テキストユニットへの分割:入力ドキュメントを後続処理が可能な「TextUnit」へと分割します。
  2. エンティティとリレーションシップの抽出:LLMが各TextUnitを読み込み、テキスト内からエンティティとその間の関係性を「(主語, 述語, 目的語)」の三つ組(トリプル)として抽出します。
  3. Leidenアルゴリズムによる階層的コミュニティ検出:巨大になったナレッジグラフを分析しやすくするため、グラフ内の密接に関連するエンティティのクラスター、すなわち「コミュニティ」を検出します。GraphRAGでは、この目的のためにLeidenアルゴリズム [6] という高度な手法が用いられます。このアルゴリズム再帰的に適用することで、細かい粒度からデータセット全体まで、階層的なクラスタリング構造を構築します。
  4. 複数レベルのコミュニティレポート生成:階層の各レベルに存在するコミュニティごとに、LLMがその内容を要約した自然言語の「コミュニティレポート」を生成します。このレポート群は、後述するグローバル検索において決定的な役割を果たします。
重要な視点:知識創造としてのインデキシング 標準RAGのインデキシングが元データの表現(チャンクのベクトル)を保存するだけなのに対し、GraphRAGのインデキシングはLLMを用いてエンティティを抽出し、関係性を推論し、コミュニティレポートという新たな要約を生成する「知識創造」の行為です。その結果、インデキシングの成果物自体が、検索のためだけの索引ではなく、データセット全体の構造化された多層的なセマンティックモデルという、それ単体で価値のある知的資産となるのです。

2.3 クエリフェーズ:前例のない深さで質問に回答する

インデキシングによって構築されたリッチな知識モデルを使い、GraphRAGはユーザーの質問に答えます。その際、質問の性質に応じて最適化された2つの異なるクエリワークフローを使い分けるのが特徴です。

2.3.1 グローバル検索:データ全体を対象とする俯瞰的な質問のために

  • 目的: 「主要なテーマは何か?」「重要な発見を要約して」といった、データセット全体にわたる広範な質問に答えること。
  • カニズム: インデキシング時に生成されたコミュニティレポートを全面的に活用します。MapReduceアプローチを採用し、指定された階層レベルの全コミュニティレポートを並列処理で要約し、最終的に一つの包括的な回答へと統合します。これにより、クエリ時に全ての元テキストを読むことなくデータセット全体について推論することが可能となり、標準RAGが苦手とするキーワードマッチングの問題を回避します。

2.3.2 ローカル検索:特定のエンティティに焦点を当てた詳細な質問のために

  • 目的: 「プロジェクトXと人物Yの関係は?」「製品Zの仕様を教えて」といった、特定のエンティティに関する的を絞った質問に答えること。
  • カニズム: ユーザーの質問から最も関連性の高いエンティティを「エントリーポイント」として特定し、そこからグラフのエッジをたどって関連情報を収集します。この多角的でリッチな情報(エンティティ、関係性、元のテキストチャンク、コミュニティレポート)をコンテキストとしてLLMに渡し、正確で根拠の明確な回答を生成します。

第3章 転換点:GraphRAGを選択すべき時

GraphRAGは強力な技術ですが、その導入は全てのユースケースにとって最適解とは限りません。その複雑性とコストに見合う価値を引き出すためには、「どのような場合にGraphRAGを検討すべきか」という問いに明確な答えを持つことが不可欠です。本章では、性能評価の観点、具体的な適用シナリオ、そして実際の成功事例を通して、GraphRAG導入の判断基準を提示します。

3.1 GraphRAGが真価を発揮するシナリオ:導入判断フレームワーク

自社の課題が以下の特性と合致する場合、GraphRAGは大きな価値をもたらす可能性があります。

  • 複雑なマルチホップ推論が求められる場合:法務・コンプライアンス調査、医療・創薬研究、サプライチェーン分析など、連鎖的な情報探索が必要なケース。
  • データ全体を俯瞰・分析する必要がある場合:市場調査、競合分析、エンタープライズナレッジマネジメントなど、大量データから傾向やパターンを発見することが目的のケース。
  • 高い説明可能性と信頼性が要求される場合:金融犯罪対策、ネットワークインフラ管理、リスク管理など、「なぜその回答に至ったのか」という根拠が重要視されるケース。

3.2 ケーススタディ分析:NASAとPrecina Healthから学ぶ成功の鍵

  • NASAの「People Graph」:専門家のスキルとプロジェクト経験をナレッジグラフ化。「誰が何を知っているか」という情報のサイロ化を解消し、組織内の専門知識へのアクセス性を劇的に向上させました。
  • Precina Healthの糖尿病管理システム:患者の医療記録、社会的・行動データを統合したナレッジグラフを構築。マルチホップ推論を活用して疾患の根本原因を分析し、標準治療の12倍の速さで患者の状態を改善させるという驚異的な成果を達成しました。

3.3 標準RAG vs. GraphRAG 比較分析

属性 標準的なベクトルRAG GraphRAG
中核原理 意味的類似性(Semantic Similarity) 関係性の走査(Relational Traversal)
得意な質問 「〇〇とは何か?」という事実ベースの質問 「XとYはどう関係しているか?」「全体を要約して」
マルチホップ推論 不可 可能(ローカル検索)
全体俯瞰・要約 困難 可能(グローバル検索)
説明可能性 低い(なぜそのベクトルが類似したか不明確) 高い(グラフのパスを追跡可能)
実装の複雑性 比較的低い 高い(オントロジー設計、DB選定が必要)
インデキシングコスト 中程度(エンベディング計算) 高い(エンティティ抽出、要約生成にLLMを多用)

第4章 広がるRAGの世界:GraphRAGの代替技術と補完的アプローチ

選択肢は「単純なRAG」か「GraphRAG」かという二者択一ではありません。ベクトル検索をベースとしたRAGも高度化しており、また、両者の長所を組み合わせたハイブリッドなアプローチこそが、今後の主流となる可能性を秘めています。

4.1 進化を続けるベクトルRAG:高度化する検索・取得技術

標準的なベクトルRAGも、センテンスウィンドウ検索親子ドキュメント検索クエリ拡張検索後の再ランキングといった様々な改良が加えられています。これらの「高度なベクトルRAG」技術は、GraphRAGほどの複雑性を伴わずに、検索精度を向上させる有効な選択肢となり得ます。

4.2 ハイブリッドアプローチと技術選定マトリクス

最も洗練されたRAGシステムは、ベクトル検索とグラフ検索を排他的なものとして捉えず、両者を巧みに組み合わせます。まず高速なベクトル検索でナレッジグラフへの「入口」を特定し、次にグラフ検索で構造化された関係性をたどってコンテキストを拡張する、といったパターンが一般的です。

以下のマトリクスは、ビジネス課題に応じて最適なRAG技術を選定するための指針です。

ビジネス課題/質問タイプ 単純なベクトルRAG 高度なベクトルRAG GraphRAG ハイブリッドRAG
単純な事実ベースのQ&A 最適 有効 非推奨 非推奨
長文ドキュメントの要約 有効 最適 有効 最適
マルチホップ関係クエリ 不可能 不可能 最適 最適
データ全体の俯瞰分析 不可能 困難 最適 最適

第5章 実践的実装ガイド:設計図から本番運用まで

GraphRAGの導入は、単にライブラリをインストールして実行するだけでは終わりません。その価値を最大限に引き出すには、戦略的な準備、慎重な技術選定、そして長期的な運用を見据えた設計が不可欠です。

5.1 フェーズ1:実装前戦略 - 成功の礎を築く

5.1.1 最重要課題:ナレッジグラフのオントロジー設計

オントロジーとは、ナレッジグラフの「スキーマ」や「データモデル」であり、どのような種類のエンティティ(ノード)と関係性(エッジ)をデータから抽出するかを定義するものです。これはGraphRAGプロジェクトにおける最も重要な準備作業です。「どのような問いに答えたいのか」というビジネスゴールから始め、小さく反復しながら設計を進めることが成功の鍵です。

5.1.2 MicrosoftOSS GraphRAG活用:セットアップとプロンプトチューニング

実践的な出発点として、Microsoftが公開しているmicrosoft/graphragリポジトリの活用が推奨されます [2]。導入にあたり、最も重要なのがプロンプトチューニングです。デフォルトのプロンプトは汎用的なデータで最適化されているため、専門的なドメインに適用しても期待する性能は得られません。この課題に対し、GraphRAGではauto‑tuning機能が提供されています [7]。これは、対象ドメインのデータサンプルをLLMに与えることで、そのドメインに特化したエンティティ抽出や要約のプロンプトを自動生成する機能であり、新規ドメインへの適応を大幅に加速させます。

5.2 フェーズ2:インデキシングの挑戦 - コストと複雑性の管理

明確に認識すべきは、GraphRAGのインデキシングは非常に高コストであるという事実です。LLMへの大量のAPIコール、計算リソース、そしてグラフデータベースやプロンプトエンジニアリングに精通した専門人材が必要となります。また、「Garbage in, garbage out」の原則が強く当てはまり、データ品質、特に「IBM」と「International Business Machines」を同一視するエンティティ解決の精度が、グラフ全体の品質を左右します。

5.3 フェーズ3:クエリと長期運用

5.3.1 ナレッジグラフの鮮度維持:差分更新戦略

一度構築したナレッジグラフは、時間の経過とともに陳腐化します。新しいデータが追加された際に、高コストなフルリインデックスを毎回実行するのは非現実的です。この本番運用における致命的な課題に対し、GraphRAGではupdateコマンドという機能が導入されました [7]。このコマンドは、既存のインデックスと新規追加コンテンツとの差分を計算し、インテリジェントに更新をマージすることで、再インデックスの範囲を最小限に抑えます。これにより、ナレッジグラフの鮮度を経済的に維持することが可能となり、GraphRAGのエンタープライズ導入における大きなハードルが一つ取り除かれました。

技術リーダーへの提言: GraphRAGプロジェクトの成功は、AIモデルの選択よりも、実装前のデータ戦略(オントロジー設計、データ品質担保)によって決まります。また、インデキシングの高いTCOは、プロジェクトの初日から差分更新のような効率的な運用メカニズムに投資することの強いビジネスケースとなります。差分更新戦略なしでは、システムは経済的に持続不可能です。

第6章 GraphRAGの未来:自動化、コスト効率、そしてその先へ

GraphRAGはまだ発展途上の技術であり、その可能性は現在実装されている機能をはるかに超えています。研究開発の最前線では、現在の課題であるコストや複雑性を克服し、さらに高度な応用を実現するための取り組みが活発に進められています。

6.1 テキストを超えて:画像や音声を含むマルチモーダルGraphRAGの可能性

企業のデータはテキストだけではありません。設計図、製品写真、医療画像、音声録音など、多様なモダリティのデータにこそ、重要な知識が眠っています。GraphRAGの次なる進化は、これらの非テキストデータを統合するマルチモーダルナレッジグラフ(MMKG)の実現です。これにより、「この設計図に示されている部品に関連する過去の障害報告を表示して」といった、これまで不可能だった種類の質問に答えることが可能になり、特に製造、エンジニアリング、医療といった物理的な世界と密接に関わる産業において、AIの活用範囲を劇的に広げるでしょう。

6.2 次世代アーキテクチャ:コストとレイテンシのボトルネックを解消する

業界は、GraphRAGのインデキシングに伴う高コストと長い処理時間という、エンタープライズ導入における最大の障壁を克服するために、精力的に新しいアーキテクチャを開発しています。

6.2.1 Microsoftによる効率化アプローチ

GraphRAGの開発元であるMicrosoft自身も、効率化に向けた複数のアプローチを提唱しています [7]:

  • LazyGraphRAG: 事前のインデキシング処理を最小限に抑え、ユーザーからのクエリが実行された時点で、必要に応じて「ジャストインタイム」でグラフの一部を構築するアプローチ。初期導入コストを劇的に削減し、システムの応答性を向上させます。
  • DRIFT Search: グローバル検索とローカル検索を組み合わせたハイブリッドな検索手法です。まず、大まかなグローバル検索で関連性の高いコミュニティを特定し、次にそのコミュニティ内で詳細なローカル検索を実行します。この手法では、コミュニティ情報を検索に組み込むことで、従来のローカル検索に比べてより多様な事実を取り込むことができ、回答の質と幅を向上させます。

6.2.2 ArchRAG:インデキシング効率を抜本的に改善する新星

最近発表されたArchRAG [8] は、標準GraphRAGのインデキシング効率の問題に正面から取り組む、注目すべき研究アプローチです。

ArchRAGは、標準GraphRAGがコミュニティ検出に用いるLeidenアルゴリズムが、グラフの構造情報しか利用していない点を批判します。これにより、意味的には関連性の低いエンティティが同じコミュニティに分類されてしまう問題がありました。さらに、全コミュニティの要約を生成するプロセスは、膨大なLLMコールを必要とし、非効率でした。

この課題に対し、ArchRAGは2つの革新的な解決策を提案します:

  1. LLMベースの階層的クラスタリング:グラフの構造だけでなく、ノードの持つ意味情報も活用して、より意味的に一貫性のあるコミュニティを形成するためにLLMを直接クラスタリングに用います。
  2. C‑HNSWインデックス:コミュニティ検索を高速化するために、ベクトル検索で用いられるHNSWアルゴリズムに着想を得た新しいインデックス「C-HNSW」を提案。これにより、グローバル検索時に全てのコミュニティ要約をスキャンする必要がなくなり、関連する要約を極めて高速に特定できます。

これらの改良により、ArchRAGは標準的なGraphRAGと比較して、インデキシングにおけるトークン使用量を大幅に削減し、検索効率も大幅に向上させたと報告されています。この動向は、今後の技術革新が、いかにしてグラフベースの推論を経済的に実行可能にするか、という点に集約されていくことを明確に示しています。

6.3 GraphRAGの効果分析:GraphRAG‑Benchからの洞察

GraphRAGを用いたシステムが常に優れているわけではないという疑問に応えるため、Xiangらは新しいベンチマークGraphRAG‑Benchを提案しました [9]。このベンチマークは、事実の取り出し、複雑な推論、文脈要約、創造的生成といった難易度の異なるタスクで構成され、グラフ構築から知識検索、生成までパイプライン全体を評価します。著者らはこのベンチマークを用いた実験から、GraphRAGモデルがNatural Questionsタスクで従来のRAGに対し平均13.4%精度が低下し、時間依存的な質問では16.6%の低下があることを報告しています。一方で、HotpotQAのようなマルチホップ質問では推論深度が4.5%向上するものの、平均レイテンシは2.3倍に増加するなど、必ずしもコスト対効果が高いわけではないことが示されました。GraphRAG‑Benchは、グラフ構造が役に立つシナリオとそうでないシナリオを識別するための指針を提供し、GraphRAGの適用判断に客観的な基準を与えてくれます。

6.4 Agentic GraphRAG:Graph‑R1の提案

GraphRAGの高い構築コストや静的な検索パターンに対処する研究として、LuoらはGraph‑R1という新たなフレームワークを提案しています [10]。Graph‑R1は軽量なハイパーグラフ構築を導入し、検索プロセスをエージェントによるマルチターンの環境相互作用として定式化します。エージェントは強化学習によって最適化され、環境から得られる報酬に基づいて関連ノードを探索するため、従来のGraphRAGや強化学習を用いたRAG手法よりも、推論精度・検索効率・生成品質のいずれにおいても優れた結果を示しました。このアプローチは、グラフ検索をより動的で自己改善可能なものへと昇華させるものであり、将来的なGraphRAGの進化方向を示唆しています。

第7章 結論:GraphRAGはあなたのAI戦略をいかに変革するか

本稿では、生成AI活用の新たな地平を切り開く技術として、GraphRAGを多角的に掘り下げてきました。その核心的なメッセージを改めて要約します。

GraphRAGは、標準的なベクトル検索ベースのRAGでは解決が困難な、複雑で関係性の深い問題を解くために設計された、強力かつ専門的なツールです。その力は、単なる意味の類似性を超え、データに内在する構造と文脈を理解し、複数の情報を論理的につなぎ合わせる能力にあります。

しかし、その能力には代償が伴います。GraphRAGは、標準RAGと比較して、実装の複雑性、インデキシングにかかる計算コストと金銭的コスト、そして運用・維持の難易度が高いというトレードオフを抱えています。

したがって、AI戦略を担うITリーダーやコンサルタントにとって、GraphRAGの導入は戦術的な決定ではなく、戦略的な意思決定となります。それは、以下の点を冷静に見極めることを要求します。

  1. 解決すべきビジネス課題の本質: あなたの組織が直面している最も価値の高い課題は、単純な情報検索で解決できるものですか?それとも、複雑な関係性のウェブを解き明かすことによってのみ解決できるものですか?
  2. データモデリングへのコミットメント: GraphRAGの成功は、AIモデルの性能以上に、その土台となるナレッジグラフの品質、すなわち厳密なオントロジー設計とデータ品質管理にかかっています。この地道な作業にリソースを投下する覚悟はありますか?
  3. 長期的なビジョン: 目指しているのは、単なるQ&Aシステムですか?それとも、組織の知識を構造化し、継続的に成長させていく真の「知的資産」の構築ですか?

GraphRAGは、万能薬ではありません。しかし、適切な課題に対して適用されたとき、それは単なる効率化ツールを超え、これまで見えなかったインサイトを可視化し、より高度な意思決定を支援し、そして最終的には、持続可能で模倣困難な競争優位性をもたらす源泉となり得ます。ArchRAGのような次世代アーキテクチャやGraphRAG‑Bench、Graph‑R1といった研究の登場により、コストと性能のトレードオフも着実に改善されつつあります。GraphRAGを理解し、その導入を戦略的に検討することは、生成AI時代を勝ち抜くための次なる重要な一手となるでしょう。

参考文献

  1. Lewis, P., Perez, E., Piktus, A., Petroni, F., Karpukhin, V., Goyal, N., Küttler, H., Lewis, M., Yih, W. T., Rocktäschel, T., Riedel, S., & Kiela, D. (2020). Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks. Advances in Neural Information Processing Systems, 33, 9459‑9474.
  2. Microsoft. (2024). GraphRAG: A new architecture for LLM Q&A. Microsoft Research Project Page. Retrieved from https://www.microsoft.com/en-us/research/project/graphrag/
  3. Warren, C., Mathew, A. K., Tredennick, R., Pereverzev, D., & Qu, A. (2024). GraphRAG: Unlocking the power of knowledge graphs for large language models. Microsoft.
  4. Galkin, M. (2024). The Rise of GraphRAG: Next‑Gen RAG for Enterprise Q&A. Neo4j Developer Blog.
  5. Edge, D., & Trinh, T. (2024). Graph RAG: Knowledge Graphs in the LLM Era. ArXiv, abs/2405.08985.
  6. Traag, V. A., Waltman, L., & van Eck, N. J. (2019). From Louvain to Leiden: guaranteeing well‑connected communities. Scientific Reports, 9(1), 5233.
  7. GraphRAG Documentation. (2025). DRIFT Search. Retrieved from https://microsoft.github.io/graphrag/query/drift_search/.
  8. GraphRAG Documentation. (2025). CLI Reference – Update Command. Retrieved from https://microsoft.github.io/graphrag/cli/.
  9. Xiang, Z., Wu, C., Zhang, Q., Chen, S., Hong, Z., Huang, X., & Su, J. (2025). When to use Graphs in RAG: A Comprehensive Analysis for Graph Retrieval‑Augmented Generation. ArXiv, abs/2506.05690.
  10. Luo, H., E, H., Chen, G., Lin, Q., Guo, Y., Xu, F., Kuang, Z., Song, M., Wu, X., Zhu, Y., & Luu, A. T. (2025). Graph‑R1: Towards Agentic GraphRAG Framework via End‑to‑end Reinforcement Learning. ArXiv, abs/2507.21892.
  11. Wang, S., Fang, Y., Zhou, Y., Liu, X., & Ma, Y. (2025). ArchRAG: Attributed Community‑based Hierarchical Retrieval‑Augmented Generation. ArXiv, abs/2502.09891.