顧客対応オペレーションを AI エージェントで 80% 自動化

プロジェクト概要

月 6,000 件の問い合わせを処理するコンタクトセンター運営企業から、一次対応の自動化を目的に AI エージェント の設計と実装を請けました。1 オペレーターあたりの応答件数を引き上げつつ、品質劣化を防ぐことが要件です。

クライアントの本業は EC ・通販事業のカスタマーサポート BPO。10 を超える事業者の問い合わせを 30 名のオペレーターで捌いており、人件費と教育コストが事業利益を圧迫していました。「AI で減らせるなら減らしたい」という意向は強いものの、過去の chatbot 導入が失敗した経緯があり、慎重な検討が必要なクライアントです。

業務上の課題

問い合わせ内訳の 60% が「よくある質問」相当 だが、過去ナレッジが分散している
新人オペレーターの育成に平均 4 ヶ月
24 時間対応化のためにオペレーターを増やす予算がない
過去の chatbot 導入で「定型外質問にうまく答えられず CSAT が下がった」失敗経験あり
データはクライアント各社で分散管理 (CSV / Notion / Salesforce / Zendesk)

アプローチ

1. 業務ログから「よくある質問パターン」を抽出

過去 3 ヶ月分の応対ログ (約 14,000 件) を Claude に分類させ、対応パターンを 27 種類 に集約。「自動化可能」「半自動 (要人間確認)」「完全人間対応」の 3 階層に分類しました。

階層	件数	パターン例
自動化可能	8,400 (60%)	配送状況確認、返品方法案内、注文番号照会
半自動	3,500 (25%)	クレーム一次受け、商品仕様確認、見積依頼
完全人間対応	2,100 (15%)	個別交渉、契約解除、複雑なクレーム

「完全人間対応」を 意図的に残す のがこの設計の肝です。AI で全部やろうとすると過去の chatbot 失敗を繰り返すため、最初から「人間対応専用ライン」を残す設計に。

2. RAG + LangGraph で AI エージェント実装

flowchart LR
  Q["ユーザー問い合わせ"]
  T["トリアージ Node"]
  R["RAG 検索 Node"]
  A["回答生成 Node"]
  S["送信 Node"]
  E["エスカレーション Node"]
  H["オペレーター"]

  Q --> T
  T -- 自動化可能 --> R --> A --> S
  T -- 要人間判断 --> E --> H

ナレッジは Pinecone に投入し、CSV / Notion / Salesforce / Zendesk から 一括取り込みパイプライン を Cloudflare Workers で構築。クライアント各社のデータ更新タイミングに合わせて差分同期するため、

日次更新が多いもの (在庫・配送状況): Cron で 1 時間ごとに取り込み
週次更新 (FAQ / 商品マスタ): Webhook で更新検知 → 即時インデックス
月次更新 (社内ナレッジ): 手動同期

の 3 モードに分けました。

3. 監視と継続改善

エージェントの応答品質を週次でサンプル評価し、Slack で「外れたケース」を流して人間が修正 → 学習ループへ。evaluation harness を Claude Code で構築し、改良前後で品質スコアを比較できる仕組みも併設しました。

評価のルーブリックは

正確性 (正しい回答ができたか)
網羅性 (関連情報を漏らさず提示できたか)
トーン (BPO 各社のブランド口調に沿っているか)
エスカレーション判定 (人間に渡すべきケースを正しく渡したか)

の 4 軸。各週、サンプル 100 件を人間が評価して継続改善に回します。

工数・品質の実数値

指標	導入前	導入 6 週後	導入 12 週後
一次対応の自動化率	0%	65%	80%
1 オペレーターあたりの応対件数 / 日	35 件	70 件	84 件
新人オペレーターの育成期間	4 ヶ月	2 ヶ月	1.5 ヶ月
24 時間対応	不可	部分可	可
顧客 CSAT	4.1 / 5.0	4.2 / 5.0	4.3 / 5.0
月次運用コスト	100 (基準)	75	62

注目すべきは「自動化したのに CSAT が下がらず、むしろ上がった」点です。これは、AI エージェントが 「分からないことは即エスカレーション」 を正しく判定できているため。過去 chatbot のように「分からないなりに答えて炎上」がなくなりました。

FIXIT

自動化すると、また昔みたいに顧客満足度が下がらない？

Hayate

そこが一番の懸念でしたが、結果はむしろ上がりました。

FIXIT

なんで下がらなかったの？

Hayate

自信のないケースは答えず人へ渡す設計にしたからです。「分からないなりに答えて炎上」がなくなりました。

FIXIT

じゃあ何でもかんでも自動化したわけじゃないんだ。

Hayate

ええ、15% は最初から人間専用ラインに残しています。線引きを欲張らなかったぶん、品質が落ちずに済みました。

顧客対応オペレーションを AI エージェントで 80% 自動化

プロジェクト概要

業務上の課題

アプローチ

1. 業務ログから「よくある質問パターン」を抽出

2. RAG + LangGraph で AI エージェント実装

3. 監視と継続改善

工数・品質の実数値

学びと再利用可能なナレッジ

1. 業務自動化は「置き換える」より「人間と協調する」設計が成功する

2. ナレッジ整備 + 評価ハーネスが、運用後の品質を支える最大の資産

3. 業務ルールが言語化されていない領域でも、AI と業務責任者の対話で要件が浮き彫りになる

ありがちな落とし穴

落とし穴 1. 「自動化率を最大化する」を KPI にしてしまう

落とし穴 2. ナレッジ更新の運用を設計しない

落とし穴 3. 評価のサンプリングをサボる

よくある質問

Q. AI エージェント開発の費用感は？

Q. ChatGPT や Claude.ai を使うのと何が違う？

Q. AI モデルが変わったら作り直しですか？

関連リソース

ほかのケーススタディ

AI 駆動開発の費用と期間|実案件の実数で示す事例まとめ

ハンドメイド委託販売店をフルスクラッチ内製で DX した事例｜自社運営カコイノマーケット

このようなプロジェクトをご検討ですか？

RECRUIT

CONTACT