Case Study

顧客対応オペレーションを AI エージェントで 80% 自動化

月 6,000 件の顧客問い合わせを抱える BPO 拠点に AI エージェントを導入。一次対応の 80% を自動化し、オペレーター 1 名あたりの処理件数を 2.4 倍に引き上げた、AI 駆動開発の実証事例。

業種
BPO・コンタクトセンター
クライアント
業種匿名 (BPO・コンタクトセンター)
期間
6 週間
公開日
2026年2月12日
使用技術:Claude (Sonnet 4.6)LangGraphPineconeSlack

プロジェクト概要

月 6,000 件の問い合わせを処理するコンタクトセンター運営企業から、一次対応の自動化を目的に AI エージェント の設計と実装を請けました。1 オペレーターあたりの応答件数を引き上げつつ、品質劣化を防ぐことが要件です。

クライアントの本業は EC ・通販事業のカスタマーサポート BPO。10 を超える事業者の問い合わせを 30 名のオペレーターで捌いており、人件費と教育コストが事業利益を圧迫していました。「AI で減らせるなら減らしたい」という意向は強いものの、過去の chatbot 導入が失敗した経緯があり、慎重な検討が必要なクライアントです。

業務上の課題

  • 問い合わせ内訳の 60% が「よくある質問」相当 だが、過去ナレッジが分散している
  • 新人オペレーターの育成に平均 4 ヶ月
  • 24 時間対応化のためにオペレーターを増やす予算がない
  • 過去の chatbot 導入で「定型外質問にうまく答えられず CSAT が下がった」失敗経験あり
  • データはクライアント各社で分散管理 (CSV / Notion / Salesforce / Zendesk)

アプローチ

1. 業務ログから「よくある質問パターン」を抽出

過去 3 ヶ月分の応対ログ (約 14,000 件) を Claude に分類させ、対応パターンを 27 種類 に集約。「自動化可能」「半自動 (要人間確認)」「完全人間対応」の 3 階層に分類しました。

階層件数パターン例
自動化可能8,400 (60%)配送状況確認、返品方法案内、注文番号照会
半自動3,500 (25%)クレーム一次受け、商品仕様確認、見積依頼
完全人間対応2,100 (15%)個別交渉、契約解除、複雑なクレーム

「完全人間対応」を 意図的に残す のがこの設計の肝です。AI で全部やろうとすると過去の chatbot 失敗を繰り返すため、最初から「人間対応専用ライン」を残す設計に。

2. RAG + LangGraph で AI エージェント実装

flowchart LR
  Q["ユーザー問い合わせ"]
  T["トリアージ Node"]
  R["RAG 検索 Node"]
  A["回答生成 Node"]
  S["送信 Node"]
  E["エスカレーション Node"]
  H["オペレーター"]

  Q --> T
  T -- 自動化可能 --> R --> A --> S
  T -- 要人間判断 --> E --> H

ナレッジは Pinecone に投入し、CSV / Notion / Salesforce / Zendesk から 一括取り込みパイプライン を Cloudflare Workers で構築。クライアント各社のデータ更新タイミングに合わせて差分同期するため、

  • 日次更新が多いもの (在庫・配送状況): Cron で 1 時間ごとに取り込み
  • 週次更新 (FAQ / 商品マスタ): Webhook で更新検知 → 即時インデックス
  • 月次更新 (社内ナレッジ): 手動同期

の 3 モードに分けました。

3. 監視と継続改善

エージェントの応答品質を週次でサンプル評価し、Slack で「外れたケース」を流して人間が修正 → 学習ループへ。evaluation harness を Claude Code で構築し、改良前後で品質スコアを比較できる仕組みも併設しました。

評価のルーブリックは

  • 正確性 (正しい回答ができたか)
  • 網羅性 (関連情報を漏らさず提示できたか)
  • トーン (BPO 各社のブランド口調に沿っているか)
  • エスカレーション判定 (人間に渡すべきケースを正しく渡したか)

の 4 軸。各週、サンプル 100 件を人間が評価して継続改善に回します。

工数・品質の実数値

指標導入前導入 6 週後導入 12 週後
一次対応の自動化率0%65%80%
1 オペレーターあたりの応対件数 / 日35 件70 件84 件
新人オペレーターの育成期間4 ヶ月2 ヶ月1.5 ヶ月
24 時間対応不可部分可
顧客 CSAT4.1 / 5.04.2 / 5.04.3 / 5.0
月次運用コスト100 (基準)7562

注目すべきは「自動化したのに CSAT が下がらず、むしろ上がった」点です。これは、AI エージェントが 「分からないことは即エスカレーション」 を正しく判定できているため。過去 chatbot のように「分からないなりに答えて炎上」がなくなりました。

学びと再利用可能なナレッジ

1. 業務自動化は「置き換える」より「人間と協調する」設計が成功する

完全自動化を目標にすると、ロングテールの定型外質問で失敗します。「人間対応専用ライン」を最初から設計に残す ことで、AI が苦手な領域を素直に人間に渡せます。これが顧客 CSAT 維持の最大要因でした。

2. ナレッジ整備 + 評価ハーネスが、運用後の品質を支える最大の資産

「AI エージェント開発」と聞くとプロンプトエンジニアリングを連想しがちですが、実は工数の半分以上が ナレッジ整備評価ハーネス構築 に投下されます。これらは AI モデル変更にも耐える資産なので、長期的な ROI が大きいです。

3. 業務ルールが言語化されていない領域でも、AI と業務責任者の対話で要件が浮き彫りになる

「明示的な FAQ がない」「ベテランが暗黙的に判断している」領域でも、AI に過去ログを読ませて分類させると、人間が言語化していなかった業務ルールが浮き上がります。業務分析の AI 補助 は、AI エージェント導入の副産物として大きな価値があります。

ありがちな落とし穴

落とし穴 1. 「自動化率を最大化する」を KPI にしてしまう

自動化率を KPI にすると、AI が無理に回答を生成して品質劣化を起こします。FIXIT では 「自信のないケースのエスカレーション率」 を KPI に含めることで、AI が判断に迷うケースを潔く人間に渡す動機を作りました。

落とし穴 2. ナレッジ更新の運用を設計しない

導入直後は良くても、3 ヶ月後にはナレッジが古くなり、回答品質が落ちます。クライアントの データ更新タイミングと連動した取り込みパイプライン を最初から設計しないと、運用後の品質維持が難しくなります。

落とし穴 3. 評価のサンプリングをサボる

「動いてるから OK」で評価をサボると、徐々に劣化していることに気づきません。週次 100 件の人間評価を運用に組み込むのは、AI エージェントの長期運用に不可欠です。

よくある質問

Q. AI エージェント開発の費用感は?

A. 本案件相当 (RAG 構築 + LangGraph エージェント + 監視) で 6 週間、800〜1,200 万円が目安です。ナレッジ整備のボリュームや、外部システム連携 (Salesforce / Zendesk 等) の数で変動します。お見積もりは お問い合わせ からどうぞ。

Q. ChatGPT や Claude.ai を使うのと何が違う?

A. ChatGPT / Claude.ai は汎用チャット UI で、ナレッジが社外のものに限定されます。社内ナレッジを安全に・継続的に・運用品質で使うには、専用のエージェント設計が必要です。

Q. AI モデルが変わったら作り直しですか?

A. RAG とエージェント設計 (LangGraph のフロー) は モデル非依存 で再利用できます。プロンプトの最終調整だけがモデル依存です。Claude → GPT-5 のような移行は、テストハーネスで品質確認しつつ 1〜2 週間で完了するイメージです。

関連リソース

このようなプロジェクトをご検討ですか?

FIXIT は要件すり合わせから本番運用まで AI 駆動で伴走します。

AI 開発の無料相談 →