RAG で社内ナレッジ検索を構築した事例|問い合わせ 60% 削減

プロジェクト概要

「これ、どこに書いてありましたっけ?」という社員からの質問が情報システム部門に毎日のように届く。VPN の設定手順、経費精算の締め日、勤怠システムの操作方法、入退社の手続き — どれも社内のどこかには書いてあるのに、誰もそのありかを覚えていない。結果として、本来なら自己解決できるはずの定型問い合わせが情シスに集中し、担当者の手が止まる。

今回ご相談いただいたのは、従業員 1,200 名規模の製造業の情報システム部門です。社内ドキュメントを横断検索できる RAG (Retrieval-Augmented Generation) 基盤を構築し、社員が自然文で質問すれば社内文書を根拠に回答してくれる仕組みを 8 週間で立ち上げました。最終的に情シスへの定型問い合わせを 60% 削減し、社員の自己解決率を大きく押し上げています。

この記事では、どんな課題に対してどう設計し、どんな数値が出たのかを、再利用できる勘所とあわせて率直に共有します。RAG の導入を検討している情シス・社内 DX 担当の方が、自社で何を準備すればよいかをイメージできることを目指しました。

FIXIT

検索 AI を入れれば、社内の「どこに書いてある問題」は解決するんだよね？

Tsukasa

それが、検索される側の文書が整っていないと精度は上がらないんです。

FIXIT

古い手順書もそのまま入れちゃダメなの？

Tsukasa

廃止文書が上位に出ると誤案内になるので、まず現役の文書だけに絞りました。

FIXIT

じゃあ最初にやることはデータの掃除なんだ。

Tsukasa

はい、棚卸しと見出し整理に工数の半分以上を使うつもりで臨むのが現実的です。

業務上の課題

着手前のヒアリングで見えてきた課題は、技術というより「ナレッジの状態」に起因するものでした。

ドキュメントが 4 つのツールに分散していた。社内 Wiki (Confluence)、ファイルサーバー上の Word / PDF、Google ドライブの運用手順、そして情シス担当者の頭の中(暗黙知)。
検索性が低い。各ツールの検索機能はキーワード一致が中心で、「在宅勤務のときの勤怠の付け方」のような自然文では目的の文書にたどり着けない。
回答品質が人に依存していた。ベテラン担当者は即答できるが、新任担当者は調べ直すため、同じ質問でも回答の精度と速度にばらつきがあった。
ドキュメント自体が古い。改訂されないまま残った旧手順書が検索上位に出てきて、誤った案内の原因になっていた。

つまり「検索 AI を入れれば解決する」という単純な話ではなく、そもそも検索される側のナレッジが整っていないことが本質的な課題でした。ここを最初に正しく認識できたかどうかが、後の精度を大きく左右します。

アプローチ 1: 分散ドキュメントの棚卸しとチャンク設計

最初の 2 週間はコードをほとんど書かず、ドキュメントの棚卸しに充てました。RAG の精度は検索対象データの質でほぼ決まるため、ここを飛ばすと後工程がすべて崩れます。

コツ

RAG を検討するなら、モデル選定より先に「検索される側」の文書を整える時間を確保してください。現役・改訂中・廃止のステータスを付けて古い文書を対象から外すだけでも、誤案内のリスクを着手前に減らせます。

棚卸しでは、対象ドキュメントを一覧化したうえで「現役 / 改訂中 / 廃止」のステータスを情シス担当者と一緒に付与しました。約 1,800 件のうち、実際に検索対象とすべき現役文書は 1,100 件ほど。残りは思い切ってインデックス対象から外すことで、古い手順がヒットするリスクを最初から潰しました。

区分	件数	対応
現役 (検索対象)	1,100	チャンク化してインデックス
改訂中	350	改訂完了後に随時追加
廃止	350	インデックス対象外

次に取り組んだのがチャンク設計です。文書をどの単位で区切ってベクトル化するかで、検索のヒット率が大きく変わります。当初は固定長 (500 文字ごと) で区切っていましたが、手順書の途中で文脈が切れて回答精度が落ちました。そこで、見出し構造を保ったまま区切る 見出しベースのチャンク分割に切り替えています。

Markdown / HTML に変換できる文書は、H2・H3 の見出し単位でチャンク化する。
1 チャンクが長くなりすぎる場合のみ、文の境界で分割する。
各チャンクに「出典文書名・章タイトル・最終更新日」をメタデータとして付与する。

このメタデータが、後述する根拠提示と更新運用の両方で効いてきます。チャンク設計は一度で正解にたどり着くものではなく、後述する評価データセットを回しながら何度も調整しました。

アプローチ 2: 検索精度を上げる RAG パイプラインの実装

データの土台が整ったところで、パイプラインの実装に入りました。構成はあえてシンプルに保ち、各段を差し替え可能にしています。

flowchart LR
  Q["社員の質問 (自然文)"]
  E["クエリ埋め込み"]
  V["ベクトル検索 (pgvector)"]
  RR["リランキング"]
  G["回答生成 (Claude)"]
  C["根拠リンク付き回答"]

  Q --> E --> V --> RR --> G --> C

ベクトルストアには、既存の PostgreSQL を活かせる pgvector を採用しました。新たに専用のベクトル DB を契約・運用するより、社内ですでに運用ノウハウのある PostgreSQL に寄せたほうが、運用負荷とコストの両面で現実的だったためです。

精度向上で効果が大きかったのは、次の 3 点です。

ハイブリッド検索。ベクトル検索だけだと「FAQ-2024-031」のような型番・固有名詞の一致に弱いため、全文検索 (キーワード一致) と組み合わせ、両者のスコアを統合しました。
リランキング。ベクトル検索で上位 20 件を取り出し、リランカーで質問との関連度を測り直して上位 5 件に絞ります。これで「なんとなく似ているが的外れ」なチャンクの混入が大きく減りました。
クエリ書き換え。社員の質問は省略が多い (「経費いつまで?」など) ため、回答生成の前に質問を補完・正規化する前処理を挟みました。

実装には Claude Code を使い、パイプラインの各段とテストを並行して書き進めました。Claude Code を実プロジェクトで効率よく回すための具体的な工夫は Claude Code × MCP の実践パターンにまとめているので、開発フローの参考にしてください。

アプローチ 3: 回答の根拠提示と権限制御・継続評価

社内ナレッジ検索で信頼を得るには、回答の正しさと同じくらい「どこに書いてあるか」を示せることが重要です。根拠が見えれば、社員は最終確認を自分の目で行えますし、誤りにも気づけます。

そこで回答には必ず 出典リンクと該当章・最終更新日を添えました。回答本文の末尾に「この回答は『リモートワーク規程第 3 章 (最終更新 2026-04)』を参照しています」と表示し、原典の文書へ 1 クリックで飛べるようにしています。これは前段のチャンクにメタデータを持たせておいたからこそ実現できた設計です。

権限制御も社内システムでは外せません。人事評価や給与に関する文書は閲覧権限が限られるため、検索段階で 質問者の所属・ロールに応じてインデックスをフィルタする仕組みを入れました。閲覧権限のない文書はそもそも検索結果に含めないことで、回答経由での情報漏えいを防いでいます。

そして継続評価です。RAG は「作って終わり」では必ず劣化するため、運用に評価の仕組みを組み込みました。

情シス担当者と協力して、想定質問と期待回答のペアからなる 評価データセット (約 150 件) を整備。
パイプラインを変更するたびに、このデータセットでヒット率と回答の正確性を自動測定する評価ハーネスを Claude Code で構築。
実運用では「役に立った / 立たなかった」のフィードバックを社員から集め、外したケースを週次でレビューしてチャンクや文書側を改善。

この評価の自動化は、AI エージェント運用の継続改善と共通する考え方です。社内オペレーションへの AI 適用を運用目線で深掘りした AI エージェントによる運用自動化の事例もあわせてご覧ください。

成果の実数値

導入後 12 週時点での主要指標です。クライアントの許諾を得た範囲で、穏当なレンジで示します。

指標	導入前	導入 4 週後	導入 12 週後
検索ヒット率 (正解文書が上位 5 件に入る割合)	—	72%	89%
情シスへの定型問い合わせ件数 / 月 (基準 100)	100	68	40
社員の自己解決率	約 30%	58%	74%
一次回答までの平均時間	半日〜1 日	数分	数分

定型問い合わせは導入前比で 60% 削減され、自己解決率は 30% 前後から 74% まで上がりました。ヒット率はチャンク設計の見直しとリランキング導入で 72% から 89% へ改善しています。

数値以上に現場が評価したのは、情シス担当者が「調べる」「案内する」作業から解放され、本来注力したかった基盤改善やセキュリティ対応に時間を回せるようになった点でした。問い合わせ削減は手段であって、目的はその先の時間の使い方の変化にあります。

RAG で社内ナレッジ検索を構築した事例|問い合わせ 60% 削減

プロジェクト概要

業務上の課題

アプローチ 1: 分散ドキュメントの棚卸しとチャンク設計

アプローチ 2: 検索精度を上げる RAG パイプラインの実装

アプローチ 3: 回答の根拠提示と権限制御・継続評価

成果の実数値

学びと再利用可能なナレッジ

精度はデータ整備が支配的

評価を仕組みにすると改善が回る

モデル非依存に設計しておく

ありがちな落とし穴

ハルシネーション対策を後回しにする

更新運用を設計に組み込まない

いきなり全社展開する

よくある質問

Q. RAG 構築の費用感はどのくらいですか?

Q. 社内文書をクラウドに出すのが不安です。セキュリティはどう担保しますか?

Q. 将来 AI モデルが変わったら作り直しになりますか?

ほかのケーススタディ

顧客対応オペレーションを AI エージェントで 80% 自動化

AI 駆動開発の費用と期間|実案件の実数で示す事例まとめ

このようなプロジェクトをご検討ですか？

RECRUIT

CONTACT