プロジェクト概要
月 6,000 件の問い合わせを処理するコンタクトセンター運営企業から、一次対応の自動化を目的に AI エージェント の設計と実装を請けました。1 オペレーターあたりの応答件数を引き上げつつ、品質劣化を防ぐことが要件です。
クライアントの本業は EC ・通販事業のカスタマーサポート BPO。10 を超える事業者の問い合わせを 30 名のオペレーターで捌いており、人件費と教育コストが事業利益を圧迫していました。「AI で減らせるなら減らしたい」という意向は強いものの、過去の chatbot 導入が失敗した経緯があり、慎重な検討が必要なクライアントです。
業務上の課題
- 問い合わせ内訳の 60% が「よくある質問」相当 だが、過去ナレッジが分散している
- 新人オペレーターの育成に平均 4 ヶ月
- 24 時間対応化のためにオペレーターを増やす予算がない
- 過去の chatbot 導入で「定型外質問にうまく答えられず CSAT が下がった」失敗経験あり
- データはクライアント各社で分散管理 (CSV / Notion / Salesforce / Zendesk)
アプローチ
1. 業務ログから「よくある質問パターン」を抽出
過去 3 ヶ月分の応対ログ (約 14,000 件) を Claude に分類させ、対応パターンを 27 種類 に集約。「自動化可能」「半自動 (要人間確認)」「完全人間対応」の 3 階層に分類しました。
| 階層 | 件数 | パターン例 |
|---|---|---|
| 自動化可能 | 8,400 (60%) | 配送状況確認、返品方法案内、注文番号照会 |
| 半自動 | 3,500 (25%) | クレーム一次受け、商品仕様確認、見積依頼 |
| 完全人間対応 | 2,100 (15%) | 個別交渉、契約解除、複雑なクレーム |
「完全人間対応」を 意図的に残す のがこの設計の肝です。AI で全部やろうとすると過去の chatbot 失敗を繰り返すため、最初から「人間対応専用ライン」を残す設計に。
2. RAG + LangGraph で AI エージェント実装
flowchart LR
Q["ユーザー問い合わせ"]
T["トリアージ Node"]
R["RAG 検索 Node"]
A["回答生成 Node"]
S["送信 Node"]
E["エスカレーション Node"]
H["オペレーター"]
Q --> T
T -- 自動化可能 --> R --> A --> S
T -- 要人間判断 --> E --> H
ナレッジは Pinecone に投入し、CSV / Notion / Salesforce / Zendesk から 一括取り込みパイプライン を Cloudflare Workers で構築。クライアント各社のデータ更新タイミングに合わせて差分同期するため、
- 日次更新が多いもの (在庫・配送状況): Cron で 1 時間ごとに取り込み
- 週次更新 (FAQ / 商品マスタ): Webhook で更新検知 → 即時インデックス
- 月次更新 (社内ナレッジ): 手動同期
の 3 モードに分けました。
3. 監視と継続改善
エージェントの応答品質を週次でサンプル評価し、Slack で「外れたケース」を流して人間が修正 → 学習ループへ。evaluation harness を Claude Code で構築し、改良前後で品質スコアを比較できる仕組みも併設しました。
評価のルーブリックは
- 正確性 (正しい回答ができたか)
- 網羅性 (関連情報を漏らさず提示できたか)
- トーン (BPO 各社のブランド口調に沿っているか)
- エスカレーション判定 (人間に渡すべきケースを正しく渡したか)
の 4 軸。各週、サンプル 100 件を人間が評価して継続改善に回します。
工数・品質の実数値
| 指標 | 導入前 | 導入 6 週後 | 導入 12 週後 |
|---|---|---|---|
| 一次対応の自動化率 | 0% | 65% | 80% |
| 1 オペレーターあたりの応対件数 / 日 | 35 件 | 70 件 | 84 件 |
| 新人オペレーターの育成期間 | 4 ヶ月 | 2 ヶ月 | 1.5 ヶ月 |
| 24 時間対応 | 不可 | 部分可 | 可 |
| 顧客 CSAT | 4.1 / 5.0 | 4.2 / 5.0 | 4.3 / 5.0 |
| 月次運用コスト | 100 (基準) | 75 | 62 |
注目すべきは「自動化したのに CSAT が下がらず、むしろ上がった」点です。これは、AI エージェントが 「分からないことは即エスカレーション」 を正しく判定できているため。過去 chatbot のように「分からないなりに答えて炎上」がなくなりました。
学びと再利用可能なナレッジ
1. 業務自動化は「置き換える」より「人間と協調する」設計が成功する
完全自動化を目標にすると、ロングテールの定型外質問で失敗します。「人間対応専用ライン」を最初から設計に残す ことで、AI が苦手な領域を素直に人間に渡せます。これが顧客 CSAT 維持の最大要因でした。
2. ナレッジ整備 + 評価ハーネスが、運用後の品質を支える最大の資産
「AI エージェント開発」と聞くとプロンプトエンジニアリングを連想しがちですが、実は工数の半分以上が ナレッジ整備 と 評価ハーネス構築 に投下されます。これらは AI モデル変更にも耐える資産なので、長期的な ROI が大きいです。
3. 業務ルールが言語化されていない領域でも、AI と業務責任者の対話で要件が浮き彫りになる
「明示的な FAQ がない」「ベテランが暗黙的に判断している」領域でも、AI に過去ログを読ませて分類させると、人間が言語化していなかった業務ルールが浮き上がります。業務分析の AI 補助 は、AI エージェント導入の副産物として大きな価値があります。
ありがちな落とし穴
落とし穴 1. 「自動化率を最大化する」を KPI にしてしまう
自動化率を KPI にすると、AI が無理に回答を生成して品質劣化を起こします。FIXIT では 「自信のないケースのエスカレーション率」 を KPI に含めることで、AI が判断に迷うケースを潔く人間に渡す動機を作りました。
落とし穴 2. ナレッジ更新の運用を設計しない
導入直後は良くても、3 ヶ月後にはナレッジが古くなり、回答品質が落ちます。クライアントの データ更新タイミングと連動した取り込みパイプライン を最初から設計しないと、運用後の品質維持が難しくなります。
落とし穴 3. 評価のサンプリングをサボる
「動いてるから OK」で評価をサボると、徐々に劣化していることに気づきません。週次 100 件の人間評価を運用に組み込むのは、AI エージェントの長期運用に不可欠です。
よくある質問
Q. AI エージェント開発の費用感は?
A. 本案件相当 (RAG 構築 + LangGraph エージェント + 監視) で 6 週間、800〜1,200 万円が目安です。ナレッジ整備のボリュームや、外部システム連携 (Salesforce / Zendesk 等) の数で変動します。お見積もりは お問い合わせ からどうぞ。
Q. ChatGPT や Claude.ai を使うのと何が違う?
A. ChatGPT / Claude.ai は汎用チャット UI で、ナレッジが社外のものに限定されます。社内ナレッジを安全に・継続的に・運用品質で使うには、専用のエージェント設計が必要です。
Q. AI モデルが変わったら作り直しですか?
A. RAG とエージェント設計 (LangGraph のフロー) は モデル非依存 で再利用できます。プロンプトの最終調整だけがモデル依存です。Claude → GPT-5 のような移行は、テストハーネスで品質確認しつつ 1〜2 週間で完了するイメージです。
関連リソース
- ほかの事例は 実績・事例 を参照してください
- Claude Code の組織導入は Claude Code 導入完全ガイド で詳しく扱っています
- AI 駆動の TDD 手順は AI 駆動 TDD の記事 を併読ください
- お問い合わせは こちらの問い合わせフォーム からどうぞ
